Материал раздела Технологии

Нейросети учатся говорить: как это изменит голосовых помощников компаний

Голосовые помощники, например в банках, пока не могут вести естественный диалог. А вот сами технологии уже способны на это. Их распространение — вопрос времени. Сергей Дорожкин (Ingate Group) — об возможностях, которые дадут бизнесу «говорящие» нейросети
Фото: Midjourney
Фото: Midjourney

Сейчас, когда человек звонит в банк или интернет-провайдеру, он попадает на голосового помощника и вынужден следовать меню, переключаясь между различными пронумерованными опциями. Это утомляет и раздражает.

Дело в том, что в основе работы голосовых помощников сейчас лежат три отдельные нейросети, которые отвечают за распознавание голоса, генерацию ответа и синтез голоса при ответе. Из-за этого, взаимодействуя с голосовыми помощниками, пользователи часто сталкиваются с задержкой ответов, и разговор не получается естественным.

Качество диалогов может быть намного лучше, если за все три процесса будет отвечать одна нейросеть. По этому пути пошли разработчики OpenAI — в версии ChatGPT-4o модель напрямую получает голос и задержка в ответе получается минимальной, как в обычных разговорах между людьми.

Тестирование нового режима уже началось, пока оно доступно лишь для небольшой группы пользователей. Также компания готовится предоставить разработчикам доступ к API своей нейросети с поддержкой аудио. Как только это произойдет, небольшие сервисные компании смогут разрабатывать голосовых помощников, способных воспринимать голос в реальном времени и вести диалог без задержки на базе ChatGPT-4o.