Высокомерие большинства: как Big Data провоцирует большие ошибки

IT Статьи Bloomberg
Полагающиеся на большие данные компании могут прийти к ошибочным выводам из-за «парадокса Big Data». Профессор из Гарварда объясняет, почему данные 2,3 млн человек могут оказаться не полезнее, чем информация о 400 респондентах
Фото: Gorodenkoff / Shutterstock
Фото: Gorodenkoff / Shutterstock

Кажется очевидным, что мнения 2,3 млн людей будут более показательны, чем мнения 400 случайно выбранных человек. Но в действительности все зависит от того, как был собран сет больших данных.

Надежда на то, что большое количество данных компенсирует их низкое качество — это классическая ошибка в развивающейся сфере Big Data, говорит Сяо-Ли Мэн, профессор статистики в Гарварде, который был инициатором и главным редактором исследования Harvard Data Science Review, вышедшем два года назад.

В идеальной случайной выборке нет корреляции между чьим-то мнением и шансом на то, что оно будет включено в дата-сет. Если такая корреляция присутствует хотя бы на уровне 0,5% (например, в случае небольшой предвзятости при отборе данных), то неслучайная выборка из 2,3 млн мнений будет не лучше выборки данных 400 человек, говорит Мэн. А ведь речь идет о сокращении фактического размера выборки на 99,98%.