Этот материал входит в раздел «Технологии», в котором мы каждую неделю разбираем актуальные технологические тренды и публикуем прогнозы и рекомендации бизнесменов, IT-евангелистов и футурологов. Вы также найдете экспертные материалы о том, как стать продуктивнее, вывести бизнес на новый уровень и улучшить качество жизни с помощью технологий.
В сентябре 2023 года стартап HeyGen от Open AI произвел фурор, выпустив ИИ-переводчика, способного конвертировать записанное пользователем видео на разные языки. Главная его фишка — способность подстраивать lip-sync (движение рта) пользователя под речь на другом языке, благодаря чему сохраняется естественный вид говорящего.
Сервис мгновенно нашел широкий отклик у аудитории — в интернете начали появляться любимые мемы, переведенные на разные языки, второе дыхание получили выступления популярных артистов и т.п.
Сама по себе задача локализации видео довольно сложная. Чтобы ее решить, необходимо использовать нескольких отдельных технологий в совокупности.
Наиболее важный этап — распознавание речи на языке оригинала и перевод полученной транскрипции на целевой язык. Ошибки на этом этапе напрямую влияют на то, насколько полной получится передача информации конечному слушателю и сохраниться ее изначальный смысл.
После того как текст переведен, его необходимо озвучить и синхронизировать с видеорядом. Однако длина фраз с одним и тем же смыслом на разных языках может отличаться, например, фразы на русском языке обычно длиннее аналогичных на английском.