О чем «говорят» изображения — знают технологии машинного обучения
Наибольший удельный вес в структуре мировых данных занимает коммерческий сектор, но потребители тоже не остаются в стороне. Каждый день объем данных, создаваемых ими, увеличивается. По оценкам Seagate и IDC, к 2025 году он превысит 160 зеттабайт. Для сравнения, еще в 2006 году он был в 1 тыс. раз меньше — всего 0,16 зеттабайта — это было сравнимо с вместимостью встроенной памяти приблизительно 5,5 млрд современных смартфонов.
Эпоха визуальных форматов
Успешные проекты все быстрее набирают первый миллиард пользователей. Если Facebook (организация признана экстремистской и запрещена на территории РФ) понадобилось для этого семь лет, то TikTok — менее трех лет.
При этом все большую часть с точки зрения медиапотребления занимают визуальные форматы. К примеру, доля видео в мобильном интернет-трафике, согласно прогнозу Cisco (отчет «Прогноз мирового трафика мобильных данных, 2017–2022»), возрастет до 79% уже к 2022 году. Еще в 2016 году этот показатель составлял 61%.
Революция в медиапотреблении уже произошла. Визуальные форматы стали основным способом познавать мир и общаться. Почему так? Мы с рождения воспринимаем информацию с помощью зрения. При этом чтение, то есть восприятие текста, — сложный навык, ему учатся. В известном смысле «общаться» с помощью картинок и видео попросту проще, а создавать их все легче. Компании широко используют цифровые данные наряду с опросами, чтобы лучше понимать потребителей. Пользовательский контент (в первую очередь, конечно же, в социальных медиа) — один из ключевых источников инсайтов о предпочтениях, стиле жизни и отношении людей к брендам и продуктам. Однако «гонка вооружений» между непрекращающимся ростом объема данных и методов их исследования бросает бизнесу серьезный вызов. Что технологии могут предложить брендам?
Как машины помогают человеку исследовать визуальный контент
Ответ на этот вопрос дают современные методы автоматического анализа контента.
Изначально эти методы были созданы для выделения ключевых слов в текстах и их тематики. Однако сегодня алгоритмы анализируют содержание уже не только текстов, но и изображений и видео. Алгоритмы используются для решения самых разных задач — от навигации автомобилей-беспилотников до автоматизации создания креативов. Посмотрим подробнее на анализ контента пользователей соцмедиа.
В основе анализа изображений лежит технология машинного обучения. Она дает аналитикам возможность работать с десятками и сотнями тысяч публикаций. Для этого технология:
- выделяет из публикаций контент, созданный пользователями;
- анализирует изображения и тексты, извлекает из них смысловые элементы (темы, объекты и т.д.);
- автоматически сегментирует контент по смыслу. Параметры сегментации могут быть разными в зависимости от того, что мы хотим узнать. Например, можно объединять изображения в сегменты, исходя из схожести композиции, цветовой гаммы, образов, наличия одинаковых предметов, в том числе логотипов и т.д.
Полученные результаты описывают эксперты. Связка машина — человек, с одной стороны, позволяет охватывать огромные объемы данных, а с другой — исключать возможные ошибки при автоматическом анализе, а также интерпретировать результаты с применением знаний, накопленных в предметной области и психологии поведения людей.
С помощью анализа визуальной составляющей пользовательского контента в соцсетях компании могут ответить на целый ряд вопросов.