Материал раздела Основной

Не верьте в «волшебные» алгоритмы: как работать с большими данными

Почему большие данные не решают всех проблем бизнеса, на что data scientists тратят больше всего времени, с чего начинать анализ и как сформировать команду исследователей — объясняют эксперты Ipsos

Вопрос качества

Большие данные помогают лучше понять потребителей, спрогнозировать их будущие покупки и найти инсайты. Но для этого они должны быть правильно собраны и обработаны. Ключевой проблемой остается качество. Само по себе использование больших данных не гарантирует, что их исследование принесет ощутимую пользу компании. Здесь работает принцип «что посеешь, то и пожнешь». Некачественные данные не позволяют широко применять алгоритмы машинного обучения.

Чтобы создать рабочую модель для прогноза, вам нужны данные

  • с широким охватом,
  • правильно промаркированные,
  • не дублированные.

К сожалению, сегодня большая часть данных, которые использует в своей работе бизнес, не соответствует этим стандартам. Самые распространенные проблемы ― недостаточный или неравномерный охват, пробелы и ошибки в записи данных.

В результате специалистам приходится «очищать» данные, прежде чем использовать их. Это трудоемкая и утомительная работа. И она занимает до 80% времени data scientist (специалиста по работе с большими данными). Но даже после этого полностью исключить ошибку нельзя.

Чем сложнее задача, тем больше данных нужно для ее решения. При этом они должны быть максимально разнообразными. А значит, возникает еще больше проблем с качеством.