Люди учат нейросети ненависти. К чему это может привести
Этот материал входит в раздел «Технологии», в котором мы каждую неделю разбираем актуальные технологические тренды и публикуем прогнозы и рекомендации бизнесменов, IT-евангелистов и футурологов. Вы также найдете экспертные материалы о том, как стать продуктивнее, вывести бизнес на новый уровень и улучшить качество жизни с помощью технологий.
В 2017 году команда Google Jigsaw выпустила Perspective API — программу на основе искусственного интеллекта, которая помогает выявлять оскорбительные высказывания в интернете. Такие платформы, как YouTube и Facebook* (продукт запрещенной в РФ компании Meta. — РБК Pro), уже создавали ИИ-классификаторы для борьбы со всеми видами ненавистнических высказываний, но в отличие от них Perspective стала доступна всем.
К 2021 году программа обрабатывала около 500 млн запросов в день, что отражало динамику общения людей в интернете. Примерно в это же время инженеры Jigsaw, подразделения Google, работающего над Perspective, стали замечать, что иногда количество запросов внезапно возрастает. Дело в том, что компаниям, которые разрабатывают ИИ, — Meta (компания признана экстремистской и запрещена в РФ. — РБК Pro), OpenAI, Anthropic, Google — потребовался инструмент, чтобы контролировать качество ответов, которые выдают нейросети.
«Тогда нам сказали: «Вот вам миллионы, миллиарды фрагментов текста», — вспоминает ведущая разработчица Perspective Люси Вассерман. — Нужно обработать все это в течение дня или недели, типа того».
Резкий рост спроса на Perspective со стороны разработчиков больших языковых моделей (LLM) свидетельствовал об ускорении темпов развития ИИ, а также о том, как именно разработчики пытались контролировать поведение чат-ботов. В итоге Perspective и широкий спектр классификаторов быстро превратились в многоцелевые инструменты для обеспечения безопасности LLM и стали ключевой технологией борьбы с оскорбительными высказываниями со стороны чат-ботов.
Но в парадоксальном и полном сленга мире слов даже человеку бывает трудно понять, что оскорбительно, а что нет. Когда сообщения людей (и ответы чат-ботов) модерирует искусственный интеллект, это приводит к нежелательным компромиссам. Исследователи не раз демонстрировали, как часто классификаторы оскорбительных выражений не справляются со своей задачей.
Обычно это затрагивает неанглоязычные и исторически маргинализированные группы. Поскольку некоторые термины — «черный», «гей», «транс», «еврей», «мусульманин», «изнасилование» — нередко встречаются в сетевых текстах вместе с оскорбительной лексикой, классификатор типа Perspective может посчитать оскорбительным употребление этих слов даже в нейтральном контексте. При этом завуалированная риторика ненависти может легко обмануть такие программы: достаточно использовать сленг или неанглийский язык. Это справедливо как для Perspective, так и для всех классификаторов, включая те, которыми пользуются YouTube, Meta* (компания признана экстремистской и запрещена в РФ. — РБК Pro) и другие компании для модерации комментариев на своих платформах.