edit_square igindin

Docuvera: Documentos com IA que Tomam Decisões, Não Apenas Extraem

Plataforma AI de documentos que vai além do OCR — modelos treinados por domínio.

Ilya Gindin
translate de  · en  · es  · fr  · ru
ler versao ilao dzindin arrow_forward

Todo negócio cheio de documentos tem aquele momento. Alguém faz upload de um PDF, roda por uma ferramenta de OCR, recebe de volta uma parede de texto e então… e agora?

A ferramenta fez seu trabalho. Você tem os dados. Mas ainda precisa descobrir o que eles significam, se estão em conformidade, o que fazer a seguir. Isso não é automação. É transcrição com passos extras.

Essa percepção foi o que levou ao Docuvera.

O que as ferramentas existentes erram

AWS Textract e Google Document AI são genuinamente bons no que fazem. Eles extraem texto de documentos com boa precisão. Lidam com tabelas, formulários, assinaturas. São rápidos e escalam.

Mas extração é o passo um de cinco.

Passo dois é entender o contexto — isso é um prontuário médico ou um contrato jurídico? Passo três é validação — isso corresponde ao schema que você realmente precisa? Passo quatro é sinalização — o que está faltando, o que está errado, o que precisa de revisão humana? Passo cinco é roteamento — para onde vai essa informação e que ação ela dispara?

Ferramentas de OCR genéricas param no passo um e entregam o resto para você. Para um time pequeno processando algumas centenas de documentos por mês, isso é gerenciável. Para uma empresa com milhares de páginas por semana em múltiplos tipos de documentos em múltiplos ambientes regulatórios, é um gargalo que nunca desaparece.

O que o Docuvera faz diferente

A aposta central: inteligência de domínio é mais valiosa do que extração genérica.

Um formulário de admissão médica não é a mesma coisa que uma reclamação de seguro, mesmo que ambos sejam PDFs com checkboxes e assinaturas. Os campos que importam são diferentes. As regras de validação são diferentes. Os requisitos de conformidade são diferentes.

Então, em vez de construir um modelo que lê tudo genericamente, construímos 12 especializações verticais — saúde, jurídico, finanças, logística, construção, manufatura e mais. Cada modelo é pré-treinado em dados específicos do domínio. Ele sabe como é um código CPT válido. Sabe a diferença entre uma ordem de compra e um recibo de entrega.

Quando o Docuvera processa um documento, ele produz dados estruturados com pontuações de confiança, sinaliza anomalias contra regras do domínio, verifica requisitos de conformidade e roteia o resultado para o fluxo de trabalho certo. É isso que “decisões, não extração” significa na prática.

Como construímos

O problema dos dados de treinamento foi a parte mais difícil.

Você não pode treinar um modelo de documentos médicos em texto genérico. Você precisa de prontuários reais, formulários de admissão, pedidos de autorização prévia — em quantidade suficiente, com variação suficiente, para construir algo que generalize. Acabamos com milhões de pontos de dados específicos de domínio nos 12 verticais. Buscar, limpar, rotular e estruturar isso para treinamento levou mais tempo do que construir o pipeline de inferência.

A arquitetura é um pipeline de múltiplos estágios. Primeiro passo: classificação do documento — que tipo de documento é esse, qual modelo vertical se aplica. Segundo passo: extração de campos usando o modelo específico do vertical. Terceiro passo: validação contra regras do domínio. Quarto passo: pontuação de confiança e sinalização de anomalias. Quinto passo: formatação de saída e roteamento.

Cada estágio é ajustável de forma independente. Se os documentos de um cliente têm peculiaridades específicas, podemos fazer fine-tuning no nível do modelo vertical sem tocar no pipeline principal.

A velocidade de processamento foi uma restrição que levamos a sério. Cerca de 2 segundos por página em escala de produção. Essa é a taxa média de processamento sob carga, não um benchmark com documento único. Para um time processando milhares de páginas por dia, a matemática importa.

Números reais

As métricas que acabaram importando mais:

~95% de precisão na extração de campos em todos os verticais. Esse número importa menos como manchete e mais como piso — a pontuação de confiança captura o resto e roteia para revisão humana em vez de passar dados ruins silenciosamente para baixo no fluxo.

~2 segundos por página de tempo médio de processamento. Rápido o suficiente para que o processamento de documentos deixe de ser um problema de agendamento.

~4,5 horas por semana economizadas por funcionário que antes tocava em documentos manualmente.

O ângulo de conformidade

Indústrias reguladas não querem apenas extração precisa — elas precisam de trilha de auditoria.

O GDPR exige saber quais dados pessoais existem nos seus documentos, de onde vieram e quem os tocou. A OSHA exige formatos de log específicos e políticas de retenção. Saúde tem HIPAA. Finanças tem uma dúzia de frameworks sobrepostos.

Construir consciência de conformidade no pipeline de processamento, não como um complemento, mudou o produto significativamente. O Docuvera sinaliza PII automaticamente, registra cada etapa de processamento com timestamps e versões do modelo, e produz relatórios de conformidade como saída de primeira classe.

Isso acabou sendo um diferenciador maior do que os números de precisão. Empresas em indústrias reguladas não querem apenas um processador de documentos mais rápido — querem um que possam auditar.

O que aprendi

Os problemas técnicos eram difíceis. O problema do conhecimento de domínio era mais difícil.

Você pode contratar engenheiros para construir um pipeline. Não pode encurtar o processo de realmente entender 12 indústrias bem o suficiente para construir modelos úteis em produção. Isso exigiu conversar com centenas de profissionais — faturistas médicos, coordenadores de logística, gerentes de projetos de construção — e entender não apenas quais documentos processam, mas por que determinados campos importam.

Precisão não é o objetivo. Qualidade de decisão é o objetivo. Um sistema que extrai 99% dos campos corretamente mas roteia o resultado para o fluxo de trabalho errado é pior do que inútil.

Inteligência de domínio se acumula. Cada especialização vertical torna as adjacentes mais fáceis de construir. O fosso não é a arquitetura do pipeline — é o entendimento de domínio embutido nos modelos.

← arrow keys or swipe →