Вопрос качества
Большие данные помогают лучше понять потребителей, спрогнозировать их будущие покупки и найти инсайты. Но для этого они должны быть правильно собраны и обработаны. Ключевой проблемой остается качество. Само по себе использование больших данных не гарантирует, что их исследование принесет ощутимую пользу компании. Здесь работает принцип «что посеешь, то и пожнешь». Некачественные данные не позволяют широко применять алгоритмы машинного обучения.
Чтобы создать рабочую модель для прогноза, вам нужны данные
- с широким охватом,
- правильно промаркированные,
- не дублированные.
К сожалению, сегодня большая часть данных, которые использует в своей работе бизнес, не соответствует этим стандартам. Самые распространенные проблемы ― недостаточный или неравномерный охват, пробелы и ошибки в записи данных.
В результате специалистам приходится «очищать» данные, прежде чем использовать их. Это трудоемкая и утомительная работа. И она занимает до 80% времени data scientist (специалиста по работе с большими данными). Но даже после этого полностью исключить ошибку нельзя.
Чем сложнее задача, тем больше данных нужно для ее решения. При этом они должны быть максимально разнообразными. А значит, возникает еще больше проблем с качеством.