Материал раздела Технологии

Как новая нейросеть HeyGen может отменить в мире все языковые барьеры

Нейросеть HeyGen переводит видео с одного языка на другой так, что совпадают даже движения губ. Хайп вокруг нее наводнил интернет смешными роликами, но увел в тень главное — что это всем нам дает. Илья Калиновский (Just AI) — об открывшихся перспективах
Фото: Midjourney
Фото: Midjourney

Этот материал входит в раздел «Технологии», в котором мы каждую неделю разбираем актуальные технологические тренды и публикуем прогнозы и рекомендации бизнесменов, IT-евангелистов и футурологов. Вы также найдете экспертные материалы о том, как стать продуктивнее, вывести бизнес на новый уровень и улучшить качество жизни с помощью технологий.

В сентябре 2023 года стартап HeyGen от Open AI произвел фурор, выпустив ИИ-переводчика, способного конвертировать записанное пользователем видео на разные языки. Главная его фишка — способность подстраивать lip-sync (движение рта) пользователя под речь на другом языке, благодаря чему сохраняется естественный вид говорящего.

Сервис мгновенно нашел широкий отклик у аудитории — в интернете начали появляться любимые мемы, переведенные на разные языки, второе дыхание получили выступления популярных артистов и т.п.

Как работает HeyGen

Сама по себе задача локализации видео довольно сложная. Чтобы ее решить, необходимо использовать нескольких отдельных технологий в совокупности.

Наиболее важный этап — распознавание речи на языке оригинала и перевод полученной транскрипции на целевой язык. Ошибки на этом этапе напрямую влияют на то, насколько полной получится передача информации конечному слушателю и сохраниться ее изначальный смысл.

После того как текст переведен, его необходимо озвучить и синхронизировать с видеорядом. Однако длина фраз с одним и тем же смыслом на разных языках может отличаться, например, фразы на русском языке обычно длиннее аналогичных на английском.