edit_square igindin

Docuvera: AI-документы, которые принимают решения, а не просто извлекают данные

AI-платформа для документов, которая принимает решения — не просто извлекает текст.

Ilya Gindin

У каждого бизнеса, работающего с большим количеством документов, есть этот момент. Кто-то загружает PDF, прогоняет его через OCR-инструмент, получает стену текста, и… дальше что?

Инструмент сделал своё дело. Ты получил данные. Но тебе всё равно нужно разобраться, что они означают, соответствуют ли они требованиям, что делать дальше. Это не автоматизация. Это транскрипция с лишними шагами.

Именно это осознание привело к Docuvera.

Что существующие инструменты делают неправильно

AWS Textract и Google Document AI по-настоящему хороши в том, что делают. Они извлекают текст из документов с хорошей точностью. Справляются с таблицами, формами, подписями. Работают быстро и масштабируются.

Но извлечение — это шаг первый из пяти.

Шаг второй — понимание контекста: это медицинская карта или юридический договор? Шаг третий — валидация: соответствует ли это схеме, которая тебя интересует? Шаг четвёртый — флаггирование: чего не хватает, что не так, что требует проверки человека? Шаг пятый — маршрутизация: куда идёт эта информация и какое действие она запускает?

Commodity OCR останавливается на шаге первом и передаёт всё остальное тебе. Для небольшой команды, обрабатывающей несколько сотен документов в месяц, это управляемо. Для предприятия с тысячами страниц в неделю по нескольким типам документов в нескольких регуляторных средах — это бутылочное горлышко, которое не исчезает.

Что Docuvera делает по-другому

Базовая ставка: domain intelligence ценнее универсального извлечения.

Медицинская форма приёма — это не то же самое, что страховое требование, даже если оба — PDF с флажками и подписями. Важные поля разные. Правила валидации разные. Требования к соответствию нормативам разные.

Поэтому вместо того, чтобы строить одну модель, которая универсально читает всё, мы построили 12 вертикальных специализаций: здравоохранение, юриспруденция, финансы, логистика, строительство, производство и другие. Каждая модель предварительно обучена на доменно-специфических данных. Она знает, как выглядит валидный CPT-код. Она знает разницу между заказом на покупку и подтверждением доставки.

Когда Docuvera обрабатывает документ, он выдаёт структурированные данные с оценками уверенности, флажит аномалии относительно доменных правил, проверяет требования соответствия нормативам и направляет результат в нужный рабочий процесс. Именно это означает «решения, а не извлечение» на практике.

Как мы это построили

Проблема обучающих данных была самой сложной.

Нельзя обучить модель для медицинских документов на обобщённых текстах. Нужны реальные медицинские карты, формы приёма, запросы на предварительную авторизацию — достаточно их, с достаточным разнообразием, чтобы построить что-то, что обобщается. В итоге — миллионы доменно-специфических точек данных по 12 вертикалям. Поиск, чистка, разметка и структурирование этого для обучения заняли больше времени, чем построение самого inference pipeline.

Архитектура — многоэтапный pipeline. Первый проход: классификация документа — что это за документ, какая вертикальная модель применима. Второй проход: извлечение полей с помощью вертикально-специфической модели. Третий проход: валидация относительно доменных правил. Четвёртый проход: оценка уверенности и флаггирование аномалий. Пятый проход: форматирование и маршрутизация вывода.

Каждый этап независимо настраиваем. Если у клиентских документов есть специфические особенности, можно дообучить на уровне вертикальной модели, не трогая основной pipeline.

Скорость обработки была ограничением, которое мы серьёзно воспринимали. Около 2 секунд на страницу при продакшн-нагрузке. Это средняя пропускная способность под нагрузкой, не бенчмарк для одного документа. Для команды, обрабатывающей тысячи страниц в день, математика важна.

Реальные числа

Метрики, которые оказались наиболее значимыми:

~95% точности извлечения полей по всем вертикалям. Это число важно не как заголовок, а как пол — оценка уверенности ловит остальное и направляет на проверку человеком вместо того, чтобы молча передавать плохие данные дальше.

~2 секунды на страницу — средняя скорость обработки. Достаточно быстро, чтобы обработка документов перестала быть проблемой планирования.

~4,5 часа в неделю экономии для каждого сотрудника, который раньше работал с документами вручную.

Угол соответствия нормативам

Регулируемые отрасли хотят не просто точного извлечения — им нужен audit trail.

GDPR требует знать, какие персональные данные существуют в документах, откуда они пришли и кто их касался. OSHA требует специфических форматов логов и политик хранения. В здравоохранении — HIPAA. В финансах — десяток перекрывающихся фреймворков.

Встраивание compliance-осведомлённости в pipeline обработки — не как дополнение, а изначально — значительно изменило продукт. Docuvera автоматически флажит PII, логирует каждый шаг обработки с временными метками и версиями моделей, и производит compliance-отчёты как первоклассный вывод.

Это оказалось более серьёзным дифференциатором, чем показатели точности. Предприятия в регулируемых отраслях хотят не просто более быстрый обработчик документов — они хотят такой, который можно аудировать.

Что я узнал

Технические проблемы были сложными. Проблема доменных знаний — сложнее.

Можно нанять инженеров, чтобы построить pipeline. Нельзя срезать путь в процессе реального понимания 12 отраслей достаточно глубоко, чтобы построить модели, полезные в продакшне. Это потребовало разговоров с сотнями практиков — медицинскими биллерами, логистическими координаторами, менеджерами строительных проектов — и понимания не только того, какие документы они обрабатывают, но почему определённые поля важны.

Цель — не точность. Цель — качество решений. Система, которая извлекает 99% полей правильно, но направляет результат в неправильный рабочий процесс, хуже, чем бесполезна.

Доменный интеллект накапливается. Каждая вертикальная специализация упрощает построение соседних. Ров — не в архитектуре pipeline, а в доменном понимании, встроенном в модели.

← стрелки или свайп →