Высокомерие большинства: как Big Data провоцирует большие ошибки
Кажется очевидным, что мнения 2,3 млн людей будут более показательны, чем мнения 400 случайно выбранных человек. Но в действительности все зависит от того, как был собран сет больших данных.
Надежда на то, что большое количество данных компенсирует их низкое качество — это классическая ошибка в развивающейся сфере Big Data, говорит Сяо-Ли Мэн, профессор статистики в Гарварде, который был инициатором и главным редактором исследования Harvard Data Science Review, вышедшем два года назад.
В идеальной случайной выборке нет корреляции между чьим-то мнением и шансом на то, что оно будет включено в дата-сет. Если такая корреляция присутствует хотя бы на уровне 0,5% (например, в случае небольшой предвзятости при отборе данных), то неслучайная выборка из 2,3 млн мнений будет не лучше выборки данных 400 человек, говорит Мэн. А ведь речь идет о сокращении фактического размера выборки на 99,98%.