Материал раздела Основной
Коммерческий успех многих современных компаний зависит от скорости запуска продукта на рынок или добавления новых функций. По этой причине исследовательские работы, этапы разработки и анализ данных пытаются ускорить любым способом, в том числе за счет машинного обучения (machine learning). А для этого требуются вычислительные ресурсы. И чем больше задач приходится обрабатывать на предприятии или в компании, тем сложнее организовать этот процесс.
Мало купить сервер с производительными видеокартами, быструю память и сетевую аппаратуру. Нужно арендовать место в дата-центре, отвечающем необходимым требованиям по безопасности, нанять специалистов. А что, если таких серверов не один или два, а несколько десятков? Все это требует больших расходов, знаний и времени.
Запустить проект уже на готовом, собранном и подключенном оборудовании также бывает задачей нетривиальной, требующей прямого взаимодействия с разработчиком аппаратной начинки. Работа с железом такого уровня кардинально отличается от работы, например, на производительном ноутбуке или на стандартном корпоративном сервере. Многие процессы приходится дотачивать под конкретную задачу или проект.
Обучение нейросетей требует огромных мощностей. Если использовать обычный сервер, на обучение модели с нуля потребуется 40 лет. Если задействовать один GPU-ускоритель V100 — 10 лет. Благо, что задачи обучения можно с легкостью распараллеливать, например запускать на 256 ускорителях V100, соединенных быстрым интерконнектом. При грамотном выборе и настройке этого интерконнекта задачу можно решить всего за две недели или даже быстрее.