Гайд для гуманитариев: как использовать машинное обучение в бизнесе
Мы живем в исключительное для развития машинного обучения время — период «демократизации» ML-технологий. Если раньше их использование могли позволить себе лишь гиганты рынка, то теперь они лежат в основе таких уже повседневных продуктов и технологий, как «умные» колонки и поисковые системы. Машинное обучение также стало прочным фундаментом для успешного и быстрого роста компаний. Такие темпы развития пугают руководителей без опыта работы с ML-технологиями.
Что собой представляет машинное обучение
Машинное обучение (Machine learning, или ML) — это процесс, во время которого система выявляет единую логику на основе анализа большого количества похожих задач и обучается дальнейшему принятию решений без помощи человека. Например, анализирует сотни запросов пользователей, отслеживает их реакцию и учится самостоятельно давать правильный логичный ответ.
Есть три основные категории машинного обучения.
- «С учителем», или Supervised Machine Learning. Это наиболее распространенный вариант машинного обучения. Роль учителя играет ML-инженер — он готовит для алгоритма примеры входных данных, на которые система сможет опираться в процессе обучения, и ожидаемые от нее ответы. Например, алгоритм для сортировки электронных писем обучается на большом массиве уже размеченных писем, пытаясь извлечь закономерности между содержанием письма и присвоенной ему категорией. После обучения он сортирует новые письма по папкам, опираясь на выявленные в процессе обучения паттерны.
- «Без учителя», или Unsupervised Machine Learning. Система не знает правильных ответов, так как работает с немаркированным массивом данных и сама определяет их свойства. К примеру, современные смартфоны группируют фотографии одних и тех же людей в отдельный альбом на основании характерных черт — круглое лицо, зеленые глаза или светлые волосы.
- «Трансферное обучение», или Transfer Learning. Это одна из самых передовых технологий. Именно она дала компаниям возможность применять прорывные решения на практике, даже не имея гигабайтов размеченных данных. По сути, это то самое обучение «с учителем», но разделенное на два этапа. На первом этапе алгоритм тренируется решать сложную и дорогую, но не очень практичную задачу — например, ML-инженер показывает нейросети предложение с пропуском, и ее задача — логично заполнить этот пропуск подходящим по смыслу словом. То есть система учится понимать язык и начинает улавливать, что слова «хорошо» и «здорово» близки по смыслу. Благодаря этому промежуточному пункту ей гораздо проще решать такую практическую задачу, как, например, категоризация e-mail. На этапе категоризации нейросети уже не нужно учиться понимать естественный язык с нуля — она это сделала на первой задаче. Это позволяет один раз натренировать большую и «умную» модель, а потом дешево и без больших данных заточить ее под конкретные задачи.
- «Глубокое обучение», или Deep Learning. Для решения задач используются многослойные нейросети с большим количеством нейронов и связей между ними. Это самый дорогой и современный подход к решению по-настоящему сложных задач. Он показал свою эффективность в обработке естественного языка и распознавании изображений, где классические подходы не могли дать должного качества.