Чтобы большие языковые модели (LLM), на которых основаны нейросети ChatGPT, Claude от Anthopic и Gemini от Google, стали хорошими собеседниками и помощниками, их нужно многому научить.
Компании, занимающиеся искусственным интеллектом, часто используют метод обучения с подкреплением на основе обратной связи от человека (от англ. Reinforcement learning from human feedback — RLHF). Это когда люди пишут примеры, на которые нейросеть может ориентироваться при ответе, или оценивают ее варианты. Такое «воспитание» ИИ-моделей требует больших затрат, однако в крупных фирмах, таких как OpenAI и Anthropic, за это отвечают всего несколько сотрудников.
Дело в том, что обычно разработчики генеративного ИИ не занимаются обучением нейросетей самостоятельно, а обращаются к специализированным фирмам — прежде всего к Scale AI.