Материал раздела Основной
Николай Валиотти

От big data к small data: какие изменения ждут сферу аналитики данных

Область аналитики данных эволюционирует. Многие компании уже позабыли об огромных хранилищах и необходимости вручную преобразовывать информацию в пригодный вид. Какие изменения на очереди, рассказывает Николай Валиотти, гендиректор Valiotti Analytics

Расходы бизнеса на решения для работы с большими данными и их аналитику ежегодно увеличиваются — согласно данным IDC, в 2021 году компании потратили на это $215 млрд — на 10% больше, чем в 2020 году. Ожидается, что в ближайшие пять лет тенденция сохранится. Данные стали важным капиталом для роста компаний. Без них нельзя принять ни одно решение. И чем больше данных, тем выше вероятность его правильности.

Какие вызовы сейчас возникают в области анализа данных, как они уже решаются и как будут решаться в будущем?

От хранилищ к облакам: как менялся подход к анализу данных

Активная компьютеризация технологий началась в 2006–2007 годах. Стали появляться все новые и новые цифровые продукты. Люди накапливали данные, с которыми требовалось как-то взаимодействовать. Это стало стимулом для развития новой индустрии — аналитики данных — и появления big data (больших данных) — огромных массивов данных (например, клиентской информации корпораций), которые хранятся и обрабатываются особым образом. Большие данные превратились в ценный ресурс: благодаря им компании стали получать максимально детальную информацию об имеющихся и потенциальных клиентах, о продукте, а также о своих бизнес-процессах.

Сначала компании использовали для обработки big data коммерческие базы Oracle и Microsoft SQL Server: заключали контракт с вендором, который настраивал хранилище данных. Данные хранились там в сыром и неструктурированном виде. Поэтому требовались время и вычислительные машины высокой мощности, чтобы обработать их и начать использовать. Однако ресурсов на обработку информации требовалось все больше. Поэтому компаниям пришлось менять подход к их хранению: они переключились на облачные базы Google BigQuery и Amazon Redshift. Необходимость в мощных компьютерах отпала, а скорость обработки данных выросла в разы. К тому же облака оказались в 8–10 раз дешевле, чем хранилища: не сотни тысяч долларов в год за подписку, а десятки.

Вместе с тем отпала задача по трудозатратному преобразованию информации в пригодный для анализа вид — базы делают это автоматически благодаря новым инструментам ELT-концепции: все сырые данные сразу загружаются в хранилище в режиме реального времени и в нем обрабатываются.

Однако на этом эволюция сферы не остановилась. Аналитика big data таит в себе и другие ограничения.

Запрос на изменения: какие ограничения есть в области big data