Материал раздела Инвестиции

Распознай себя: как сервис по оцифровке документов выручил ₽718 млн

Разработка ПО Статьи РБК
В отличие от крупных конкурентов сервис «Биорг» не стал отказываться от человеческого труда при распознавании документов. Нейросеть справляется далеко не со всеми задачами, и дополнить ее функционал помогают 50 тыс. удаленных операторов
Георгий Зуев
Георгий Зуев (Фото: Андрей Любимов / РБК)

Компания «Биорг», созданная бывшим сотрудником ABBYY, занимается распознаванием любых документов — анкет покупателей в крупнейших розничных сетях, исторических чертежей Московского метрополитена, рукописных дел советских загсов. Стартап развивается вопреки общему тренду. Обычно облачные ИТ-сервисы стремятся максимально заменить людей искусственным интеллектом, а если и используют человеческий труд, то задействуют штатных операторов. «Биорг» пошел другим путем: нейросеть обрабатывает документы на первом этапе, а той частью работы, с какой она не справилась, занимаются краудсорсеры, которые подключаются к сервису удаленно. Всего на компанию работают,> 50 тыс. операторов со всей России.

«Шахматные программы научились обыгрывать человека. Минимальное количество неповторяющихся шахматных партий составляет приблизительно десять в 120-й степени. А в случае с изображениями эта цифра в миллионы раз больше. Одну только букву можно написать тысячами различных способов. Первые системы распознавания текстов появились 30 лет тому назад, но им до сих пор не хватает ни интеллекта, ни мощности», — рассуждает Георгий Зуев, основатель сервиса цифровой трансформации архивов «Биорг», выручка которого в 2020 году составила 718 млн руб.

Бизнес под заказ

Георгию Зуеву 45 лет. В 1998 году окончил Московский государственный университет экономики, статистики и информатики (МЭСИ) по специальности «Информационные технологии в экономике». Затем стал работать менеджером по продажам корпоративным заказчикам в компании ABBYY — разработчике программы распознавания документов FineReader, а через четыре года уволился.

В этот период один из бывших корпоративных клиентов Зуева, компания Philip Morris, обратилась к нему с заказом, по которому поджимали сроки. Чтобы выполнить его, тот запустил собственную компанию «Велингтон». «Тогда табачные компании проводили массовые маркетинговые акции. Требовалось внести данные о себе в анкету на купоне (его нужно было вырезать из газеты или получить от промоутера в магазине) и прислать на указанный адрес, таким образом люди принимали участие в розыгрыше призов, — рассказывает предприниматель. — Эти купоны огромными мешками свозились на абонентский ящик».

Компания Зуева занялась обработкой купонов для брендов Philip Morris. Тогда купоны обрабатывались вручную: операторы вбивали информацию об участниках в электронную базу данных. Контролировать их работу было сложно из-за высоких объемов, качество обработки было низким. Текст на купонах был рукописный, заполняли его очень неразборчиво, и только оператор-человек мог понять, что там написано: распознать с помощью программ было невозможно.

«Ноу-хау, которое мы тогда предложили, — сканировать эти купоны и вбивать данные не с бумаги, а со скана на мониторе компьютера, когда в верхней части экрана находится отсканированное изображение, а внизу — поля для ввода. Эта технология позволяла проверить, что именно попало в базу данных. Это помогло нам выиграть очередной тендер от Philip Morris», — вспоминает Зуев. Сверять распознанный текст с расположенным на экране рядом сканом было намного удобнее, чем с бумажным документом.

Следом за Philip Morris подтянулось еще несколько компаний, производивших товары повседневного спроса. Вплоть до финансового кризиса 2008 года дела у Зуева шли хорошо: «Мы слишком положились на сарафанное радио и совсем не занимались маркетингом. Табачное законодательство стало ужесточаться, и наши основные клиенты начали сокращать объемы заказов. Новых клиентов у нас было немного, а тут еще и кризис случился. Компания закрылась».

Все на одного: почему в России процветает буллинг сотрудников
Менеджмент Статьи РБК
Фото:Phil Boorman / Global Look Press

Против течения

На непродолжительное время Зуев вышел на работу наемным менеджером в компанию, которая занималась «умными» складами. Но вскоре решил вернуться к знакомой теме распознавания документов и создания баз данных. Новый бизнес он уже не строил под конкретного заказчика — вместо этого решил предложить системное решение. Так в 2011 году появилась компания «Биорг» — разработчик интеллектуальных систем на базе нейронных сетей и машинного обучения, которые позволяют распознавать в том числе рукописный текст на разных языках, чертежи и формировать базы данных.

Георгий Зуев
Георгий Зуев (Фото: Андрей Любимов / РБК)

«Тогда в ретейле были популярны программы лояльности — скидочные карты покупателей. Со многими крупными сетями (X5 Retail Group, «Детский мир», «Спортмастер») мы подписали договоры о сотрудничестве. Анкеты потребителей со всей России фурами свозились к нам на обработку. Мы централизованно обрабатывали эту информацию и создавали базы данных. Позже мы стали устанавливать оборудование в магазинах, чтобы можно было сканировать анкеты прямо там», — рассказывает Зуев.

Предприниматель утверждает, что у большинства конкурентов качество распознавания рукописных документов не всегда бывает высоким: «Они зарабатывают на коробочных системах распознавания. Если документы хорошего качества, то этот инструмент хорошо работает. Однако если туда попал рукописный документ, написанный небрежно, или, например, документ с японскими иероглифами, или там есть помарки или пятно, коробочный софт с этим не справится и ошибки после распознавания придется вычитывать и исправлять».

Надо было искать другой способ повышать качество, и «Биорг» сделал ставку на взаимодействие машинного и человеческого интеллекта. «Хотя во всеобщий инновационный тренд это решение никак не вписывалось. Все стремятся сократить ручной труд, а мы решили его активнее использовать», — отмечает предприниматель. К собственной программе, в которой работали операторы, подключили словари, адресные базы данных, всевозможные подсказки и способы проверки информации, поэтому операторы работали быстро. Свою краудсорсинговую платформу компания назвала Beorg Smart Vision.

Цвет нации: почему суды штрафуют компании за «обратный расизм»
Право HR Статьи
Фото:Ian Forsyth / Getty Images

Вскоре к пулу клиентов добавились страховые компании. «Однажды к нам в офис пришел страховой агент, который рассказал про новые правила ОСАГО и предложил оформить страховку. Никаких общих баз у страховщиков тогда еще не было, агенты бегали по рынку и искали клиентов. Страховые бланки заполняли от руки «на коленке». Я позвонил в несколько страховых компаний и предложил наши услуги. В итоге две из них («Спасские ворота» и «Макс») привезли нам несколько мешков анкет. Потом началась история с автокредитами, которые оформлялись через брокеров, и к нам пришли банки», — вспоминает Зуев.

Это не единственный раз, когда компания быстро выходила на новые рынки. «Пару лет назад аэропорт Шереметьево в срочном порядке нанимал грузчиков. Им надо было быстро и официально оформить порядка 500 человек. Чтобы трудоустроить такое количество людей в короткий срок, не хватало сотрудников кадрового отдела. Мы реализовали этот проект за две недели», — рассказывает предприниматель.

По мере роста количества заказчиков нужно было все больше сотрудников. Контролировать их стало трудно, и качество работы снизилось. Чтобы решить эту проблему, штатных операторов решили заменить краудсорсом. Для этого в конце 2016 года компания стала создавать свою облачную платформу. На нее загружаются сканы изображений, с которыми оператор может работать из дома.

Когда компания стала использовать облачную платформу, заказчики начали волноваться за сохранность данных. «Эту проблему мы решали методично: получили лицензии Федеральной службы по техническому контролю и ФСБ на обработку данных, прошли все возможные согласования и авторизацию в Росреестре и Роскомнадзоре», — поясняет Зуев. Для защиты персональных данных документы стали деперсонализировать — разбивать на несколько фрагментов, так что ни один оператор не видел конкретный документ целиком. Данные одного человека обрабатывают сразу несколько операторов.

Георгий Зуев
Георгий Зуев (Фото: Андрей Любимов / РБК)

На массиве имеющихся данных стали обучать нейросеть. Там, где она показывала хороший результат, ее подключали к работе. «За счет операторов мы оказались «всеядны» и могли быстро начать любой проект, а за счет ИИ проект получается быстро масштабировать», — заключает Зуев. В 2017 году компания прошла акселератор и стала резидентом «Сколково». «Биорг» получил 5 млн руб. от фонда «Сколково» на доработку нейронной сети. «В «Сколково» мы пошли ради налоговых льгот, чтобы устраивать операторов официально, — отмечает Зуев. — Но потом поняли, что это далеко не главный бонус, который там можно получить. Там мощный нетворкинг, обучение и возможность презентовать свои решения на самом высоком уровне. Это дороже льгот».

Лидеры и ниши

Разработкой программ для распознавания документов в мире занимается множество компаний. Самые известные продукты в этой нише делают Adobe, Kofax, ABBYY. У последней компании есть облачный сервис — ABBYY Cloud OCR SDK, который полностью полагается на искусственный интеллект. «Распознавание и извлечение данных с помощью ИИ-технологий происходят автоматически. Система обучается, если пользователи вносят исправления, что в итоге позволяет обрабатывать документы с меньшим числом ошибок, чем это сделал бы человек», — поясняет Андрей Зюзин, вице-президент по управлению продуктами ABBYY. Американская Iron Mountain специализируется на безопасном хранении бумажных документов, а заодно занимается их оцифровкой, чтобы обеспечить к ней доступ. Есть и нишевые компании, которые занимаются распознаванием в небольших объемах. Немногие из них занимаются автоматизацией процессов распознавания для клиентов: это Bucup (Италия), DMI (Германия), Dansk Scanning A/S (Дания), Mikrografija (Словения), MultiScan Imaging BV (Нидерланды).

Человеческий ресурс

Дистанционно к платформе «Биорг» подключены более 50 тыс. операторов верификации данных, которые вручную распознают сложные для искусственного интеллекта случаи: плохо отсканированные изображения, рукописный текст, нечеткие фотографии документов. Сервис работает со множеством языков — русским, украинским, белорусским, казахским, английским, арабским, японским и китайским. Для отдельных проектов привлекали носителей более редких языков, обычно студентов и аспирантов. Операторы сотрудничают с компанией официально, по электронным трудовым договорам ГПХ.

Операторы зарабатывают от 100 руб. в час на самых простых задачах и до 1 тыс. руб. — на сложных и специфических. Средний заработок — 400–500 руб. в час. В основном операторами становятся те, кто хочет или должен работать из дома, например мамы в декрете или пенсионеры. «Также у нас много людей с ограниченными возможностями», — отмечает Зуев. Профессиональные операторы, которые работают полный рабочий день, получают больше, от 30 тыс. руб. в месяц. Основатель сервиса рассказывает, что были случаи, когда операторы редкой квалификации, например переводчики, получали и по 200 тыс. руб.: «Иногда бывает, что люди берут на основной работе отпуск, чтобы подработать у нас. Так было, например, в проекте по оцифровке записей актов гражданского состояния: нам приходилось нанимать людей, которые делали переводы со старотатарского языка». В пандемию «Биорг» смог трудоустроить более 10 тыс. новых операторов.

В офисе компании трудятся чуть больше 50 постоянных сотрудников. Есть три основных подразделения: коммерческий блок (продажники), производственный блок, который обеспечивает нужды корпоративных заказчиков, и разработчики. «Год назад мы пришли к опционам для сотрудников. Когда сотрудник получает опцион, он чувствует свою причастность к основным бизнес-процессам. Часто наших сотрудников переманивают наши же заказчики. «Сбер» или «Ростелеком» могут предложить им больше денег. Поэтому мы должны дать альтернативу — более свободный график, agile-подход, опционы», — отмечает Зуев.

Георгий Зуев
Георгий Зуев (Фото: Андрей Любимов / РБК)

С 2017 года выручка «Биорга» ежегодно растет минимум в два-три раза. За 2020 год она составила 715 млн руб. Маржинальность составляет 20–35% по EBITDA и по чистой прибыли, так как компания пользуется налоговыми льготами как резидент «Сколково». 60% запросов поступает в «Биорг» со стороны государственных ведомств и госкомпаний (ФСИН, ФАС, «Росатом», «Роснефть», Минюст, Минобразования и др.), а также крупных промышленных компаний («Северсталь»), около 30% приходится на банки («Сбер») и финансовые организации, а оставшиеся 10% делят между собой ретейл («Спортмастер», Х5 Retail Group, «Лента», Тele2) и образовательные учреждения.

Запросы у компании разнообразные: «Это может быть вполне стандартный проект, как, например, для инвестиционной компании БКС, где мы в реальном времени распознаем паспортные данные для заключения договоров на банковское и брокерское обслуживание, а может быть реальный квест, как в случае, когда мы оцифровали и распознавали уникальные ветхие чертежи Московского метрополитена: они могут просто рассыпаться от неправильного обращения, и для таких документов нужны специальные сканеры. Также нам приходилось оцифровывать записи времен Великой Отечественной войны, сделанные химическим карандашом на газетах — бумага тогда была в дефиците. На Сахалине работали с документами на японском языке (проект для загсов)». Для «Сбера» компания автоматизирует распознавание первичной бухгалтерии (счета, акты, счета-фактуры). Для «Ростелекома» в этом году запустили распознавание абонентских договоров и других документов. Для «Ленты» компания за полгода обработала 12 фур анкет — оцифровала более 100 т документов.

Голливуд в смартфоне: как россияне продали Snapchat стартап за $166 млн
Индустрия развлечений Инновации Кейсы
Александр Машрабов и Григорий Ткаченко

Из недавних «экзотических» запросов — оцифровка налоговых форм W-8 ben на английском языке с рукописным заполнением. Это утвержденные правительством США документы для получения налоговых льгот на дивиденды по акциям американских компаний. Их подписывают физические лица, не являющиеся налоговыми резидентами США. Цена ошибки в заполнении таких форм довольно высока: ошибка может привести к тому, что владелец акций американских компаний получит дивиденды без применения льготной ставки налогообложения. «Для наших клиентов, брокерских компаний, мы проводим вторичную проверку анкет W-8 ben. Через облачную платформу Beorg Smart Vision мы автоматически обрабатываем до 50 тыс. форм W-8 ben ежемесячно и в случае обнаружения ошибок моментально возвращаем брокерам анкеты на доработку, — комментирует Галина Мальцева, заместитель председателя правления ПАО «Бест Эффортс Банк». — Процесс не должен буксовать, даже когда данные параллельно выгружаются из разных источников — разных систем документооборота, которыми пользуются наши многочисленные партнеры. Используя облачный сервис от «Биорга», мы получаем проверенные данные в нашей системе день в день даже в периоды пиковых нагрузок».

Георгий Зуев
Георгий Зуев (Фото: Андрей Любимов / РБК)

Государственные учреждения часто обращаются к компании за помощью в цифровизации архивов. «Вместе с «Биоргом» нам удалось реализовать масштабный проект — перевести в электронный вид более 2,6 млн актовых записей с 1926 по 1999 год. Перевод данных в электронный вид был направлен на формирование Единого государственного реестра записей актов гражданского состояния. Через краудсорсинговую платформу «Биорг» в оцифровке данных участвовали и получили дополнительный заработок более 500 тамбовчан, в том числе из социально незащищенных слоев населения. Перед началом работ они прошли онлайн-обучение и успешно сдали тесты. За первые две недели проекта было оцифровано 250 тыс. записей для Тамбовской области. Это в несколько раз больше, чем планировалось сделать в первый месяц работы», — говорит Ольга Горохова, начальник управления ЗАГС Тамбовской области.

Взгляд со стороны

«АСИ рекомендовало сервис к использованию в масштабах всей страны»

Андрей Зенин, управляющий активами, частный инвестор

«Технология Beorg Smart Vision благодаря сочетанию искусственного интеллекта и работы человека способна решать сложные нетипичные задачи. Огромный плюс ее в том, что с ее помощью можно обрабатывать неструктурированные данные, крайне сложные для нейросетей, например медицинские эпикризы, трудовые книжки, военные билеты, то есть все те документы, где имеется рукописный текст, печати поверх него или водяные знаки. Очень многим ведомствам такое решение интересно. В первую очередь это учреждения из сфер образования, здравоохранения, из различных госструктур. По сути, любая сложная государственная услуга нуждается в быстрой обработке солидного пакета документов. Возьмем для примера новый лекарственный препарат, на продажи которого необходимо как можно скорее выдать разрешение. В этом случае необходимо быстро проверить актуальность всех свидетельств и сертификатов, с чем Beorg Smart Vision отлично справляется.

То же самое касается работы Росреестра, Пенсионного фонда с их огромными массивами информации, нередко хранящейся на бумажных носителях, занимающих сотни квадратных метров в хранилищах. Многотонные архивы оцифровываются буквально за пару месяцев, поскольку система существенно сокращает время, нужное для этого. Я уверен, что востребованность технологии в ближайшие годы будет только расти, тем более что Агентство стратегических инициатив (АСИ) отметило сервис Beorg Smart Vision как один из лучших среди подобных и рекомендовало его к использованию в масштабах всей страны. Не последнюю роль в успехе платформы, по моему мнению, может сыграть как раз то, что она использует ручной труд. В период пандемии удаленка стала популярна».