Стартап: AssemblyAI представляет новое поколение систем распознавания речи

Автор: сотрудники AI Trends

Достижения в области искусственного интеллекта, лежащего в основе распознавания речи, стимулируют рост рынка, привлекают венчурный капитал и финансируют стартапы, тем самым создавая проблемы для авторитетных игроков.

Растущее признание и использование устройств распознавания речи стимулирует рынок, который, как ожидается, к 2025 году достигнет 26,8 миллиардов долларов во всем мире, согласно недавней статье Meticulus Research. аналитика. Повышенная скорость и точность являются одними из преимуществ развития технологий.

Дилан Фокс, генеральный директор и основатель AssemblyAI

Одна компания, находящаяся на новом этапе развития, AssemblyAI из Сан-Франциско, предлагает API для распознавания речи, способный расшифровывать видео, подкасты, телефонные звонки и удаленные встречи. Компания была основана в 2017 году генеральным директором Диланом Фоксом и получила поддержку от Y Combinator, акселератора стартапов, а также NVIDIA.

У Фокса необычное прошлое для предпринимателя в сфере высоких технологий. Он окончил Университет Джорджа Вашингтона со степенями в области делового администрирования, экономики бизнеса и государственной политики. Он устроился инженером-программистом по машинному обучению в Лабораторию новых продуктов Cisco в Сан-Франциско, где занимался глубокими нейронными сетями и машинным обучением. Они придумали идею AssemblyAI и привлекли капитал от Y Combinator, который помог им нанять ученых и инженеров по обработке данных, чтобы запустить технологию в эксплуатацию.

Задал вопрос в интервью Тенденции искусственного интеллекта О том, как он совершил переход от выпускника факультета делового администрирования и экономики к предпринимателю в сфере высоких технологий, Фокс сказал: «Я научился программировать, что привело меня на путь машинного обучения. Я искал сложную программную задачу, которая привела к обработке естественного языка, что привело меня в Cisco». В то время он работал над Siri для Apple Enterprise.

Чтобы ускорить работу, Cisco хотела приобрести программное обеспечение для распознавания речи; Во время поисков Фокс сидел на месте кошачьей птицы. Например, «мы посмотрели на Nuance», признанного лидера рынка и обладателя большего количества программного обеспечения для распознавания речи, чем ее конкуренты. (Ожидается, что приобретение Nuance компанией Microsoft за 19,6 миллиардов долларов будет завершено к концу года.) Молодые, подающие надежды предприниматели не были впечатлены. «Это безумие, насколько плохи все варианты с точки зрения точности и разработчика», — сказал он.

На него повлияла Twilio, компания из Сан-Франциско, основанная в 2008 году, которая в том же году выпустила Twilio Voice API для совершения и приема телефонных звонков, размещенных в облаке. С тех пор компания привлекла $103 млн венчурного капитала. «Они установили новые стандарты хороших API для разработчиков», — сказал Фокс.

Идея Фокса заключалась в том, чтобы «использовать искусственный интеллект и машинное обучение для получения сверхточных результатов и облегчить разработчикам включение API в свои продукты. Одним из клиентов является CallRail, который предлагает программное обеспечение для отслеживания звонков и маркетинговой аналитики, который планирует внедрить API AssemblyAI, чтобы понять, почему люди звонят. Среди других клиентов — NBC и Wall Street Journal, которые используют продукт для расшифровки контента и интервью. Для обеспечения субтитров.

Фокс сказал: «Мы работаем над тем, чтобы обеспечить максимально возможное качество распознавания человеческой речи. Над этим было проделано много работы». Они надеются достичь этого рубежа в 2022 году.

Он нацелен на компании, которые включают распознавание речи в свои продукты и упрощают их покупку. Клиенты платят в зависимости от использования; За каждую секунду расшифрованного аудио AssemblyAI взимает долю копейки. Клиенты получают ежемесячный счет. Если клиент использует 10 часов в месяц, это стоит около девяти долларов. Если клиент использует один миллион часов в месяц, это будет стоить примерно 900 000 долларов.

Распознавание голоса — это горячий рынок. «Запускается много новых стартапов», — сказал Фокс об этой возможности. «Многие интересные новые предприятия строятся на голосовых данных».

Продукт AssemblyAI может обнаруживать такие деликатные темы, как разжигание ненависти и ненормативная лексика, что позволяет клиентам сэкономить на ручной модерации контента.

На просьбу объяснить, что отличает их технологию, Фокс ответил: «Мы — опытная команда исследователей, занимающихся глубоким обучением», с опытом работы в таких компаниях, как BMW, Apple и Facebook. «Мы создаем очень большие и очень точные модели глубокого обучения, результаты распознавания которых намного точнее, чем традиционные подходы машинного обучения. Мы создаем действительно большие модели, используя передовые технологии нейронных сетей». Он сравнил этот подход с тем, который OpenAI использует для разработки своей модели большого языка GPT-3.

Кроме того, они создают функции искусственного интеллекта поверх транскрипции, чтобы предоставлять сводку аудио- и видеоконтента, которую можно искать и индексировать. «Это выходит за рамки просто транскрипции», — сказал Фокс.

В настоящее время в компании работает 25 сотрудников, и ожидается, что примерно через четыре месяца это число удвоится. Бизнес шел хорошо. «Онлайн-аудио- и видеоданные стремительно растут, и клиенты хотят этим воспользоваться, поэтому мы видим большой спрос», — сказал Фокс.

Узнайте больше здесь Сборка AI.

Related Posts

Leave a Reply Cancel reply