Pular para o conteúdo principal

Desafio 12: Reconhecimento Óptico de Caracteres (OCR)

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Visão Computacional no Azure (15-20%)

Habilidades do exame abordadas

  • Identificar recursos de soluções de reconhecimento óptico de caracteres (OCR)
  • Compreender a diferença entre OCR e inteligência de documentos
  • Identificar serviços do Azure para leitura de texto em imagens
  • Descrever capacidades da Read API

Visão geral

Reconhecimento Óptico de Caracteres (OCR) é a tecnologia que extrai texto de imagens e documentos. Sempre que você fotografa um documento, digitaliza um recibo ou aponta seu celular para uma placa e ele "lê" o texto — isso é OCR em ação.

Pense no OCR como ensinar um computador a ler. Quando você olha para uma foto de um menu de restaurante, você instantaneamente reconhece letras e palavras. O OCR faz a mesma coisa — identifica as formas dos caracteres em uma imagem e os converte em texto legível por máquina que aplicações podem processar, pesquisar e armazenar.

O Azure fornece OCR através de dois serviços principais: Azure AI Vision (Read API) para extração geral de texto de imagens, e Azure AI Document Intelligence para processamento estruturado de documentos. A Read API lida com texto impresso e manuscrito de qualquer imagem. O Document Intelligence vai além — ele compreende a estrutura do documento (campos, tabelas, pares chave-valor) de tipos específicos de documentos como faturas, recibos e formulários.

Explorar

Tarefa 1: OCR vs Document Intelligence

RecursoAzure AI Vision (Read API)Azure AI Document Intelligence
O que extraiTexto bruto de imagensCampos estruturados, tabelas e pares chave-valor
EntradaQualquer imagem com textoDocumentos (faturas, recibos, formulários, IDs)
SaídaLinhas e palavras com posiçõesCampos nomeados (ex.: "TotalFatura: R$ 1.234,56")
Caso de usoLer uma placa, extrair texto de um screenshotProcessar 10.000 faturas e extrair totais, datas, fornecedores
AnalogiaLer texto em voz altaPreencher uma planilha a partir de um formulário

Distinção principal: OCR lê texto caractere por caractere. Document Intelligence COMPREENDE a estrutura do documento — ele sabe qual número é o "total" e qual é a "data."

Tarefa 2: Experimente o demo de OCR do Azure AI Vision

  1. Visite o demo do Azure AI Vision
  2. Selecione a opção "Extract text from images"
  3. Tente com uma imagem de exemplo ou faça upload da sua (foto de uma placa, documento ou manuscrito)
  4. Observe os resultados:
    • Texto é extraído linha por linha
    • Cada palavra tem coordenadas de posição (polígono delimitador)
    • Tanto texto impresso quanto manuscrito pode ser detectado
    • O texto é retornado na ordem de leitura

Tarefa 3: Entenda a estrutura de resposta da Read API

A Read API retorna uma estrutura hierárquica:

Read Result
├── Page 1
│ ├── Line 1: "Invoice #12345"
│ │ ├── Word: "Invoice" (confidence: 0.99, position: [x,y,w,h])
│ │ └── Word: "#12345" (confidence: 0.97, position: [x,y,w,h])
│ ├── Line 2: "Date: January 15, 2024"
│ │ ├── Word: "Date:" (confidence: 0.99)
│ │ ├── Word: "January" (confidence: 0.98)
│ │ └── ...
│ └── ...
└── Page 2 (if multi-page document)
└── ...

Recursos principais da Read API:

  • Lida com texto impresso e manuscrito
  • Suporta múltiplos idiomas (120+ idiomas)
  • Funciona com texto rotacionado e inclinado
  • Processa documentos de múltiplas páginas (PDF, TIFF)
  • Retorna scores de confiança para cada palavra

Tarefa 4: Modelos pré-construídos do Document Intelligence

O Azure AI Document Intelligence oferece modelos pré-construídos para tipos comuns de documentos:

Modelo pré-construídoO que extrai
FaturaNome do fornecedor, total da fatura, data de vencimento, itens de linha
ReciboComerciante, data, total, imposto, itens comprados
Documento de identidadeNome, data de nascimento, número do documento, expiração
Cartão de visitaNome, empresa, email, número de telefone
Formulário fiscal W-2Informações do funcionário, salários, impostos retidos
Cartão de plano de saúdeInformações do membro, detalhes do plano, número do grupo

Modelos personalizados: Se seus documentos não correspondem aos modelos pré-construídos, você pode treinar o Document Intelligence com suas próprias amostras de documentos.

Alternativa via Azure CLI
# Analisar uma imagem com a Read API
az cognitiveservices account show \
--name my-ai-services \
--resource-group my-rg \
--query "properties.endpoint"

# Document Intelligence é acessado via REST API:
# POST {endpoint}/documentintelligence/documentModels/prebuilt-invoice:analyze?api-version=2024-02-29

Conceitos-Chave

ConceitoDefinição
OCR (Reconhecimento Óptico de Caracteres)Tecnologia que extrai texto de imagens e documentos digitalizados
Read APICapacidade do Azure AI Vision que extrai texto impresso e manuscrito
Azure AI Document IntelligenceServiço que extrai dados estruturados (campos, tabelas) de documentos
Caixa/polígono delimitadorCoordenadas indicando onde cada palavra/linha aparece na imagem
Texto impressoTexto gerado por máquina (fontes) — maior precisão
Texto manuscritoTexto escrito à mão — mais desafiador, menor precisão
Modelo pré-construídoModelo pré-treinado do Document Intelligence para tipos específicos de documentos
Modelo personalizadoModelo treinado pelo usuário do Document Intelligence para formatos únicos de documentos
Score de confiançaMedida de confiabilidade (0-1) para cada palavra extraída

Equívocos Comuns

EquívocoRealidade
"OCR e Document Intelligence são a mesma coisa"OCR extrai texto bruto (caracteres e palavras). Document Intelligence compreende a ESTRUTURA do documento — ele sabe qual texto é uma data, qual é um total e qual é o nome de um fornecedor
"OCR só funciona com texto impresso"A Read API do Azure lida com texto impresso e manuscrito. Texto impresso tipicamente tem maior precisão, mas o reconhecimento de manuscrito melhorou dramaticamente
"OCR requer imagens perfeitamente claras e retas"OCR moderno lida com texto rotacionado, inclinado e até parcialmente obstruído. A Read API compensa qualidade de imagem imperfeita
"Document Intelligence requer treinamento personalizado para cada tipo de documento"Modelos pré-construídos funcionam imediatamente para documentos comuns (faturas, recibos, IDs). Treinamento personalizado só é necessário para formatos de documentos únicos/proprietários
"OCR fornece dados estruturados diretamente"OCR fornece texto bruto na ordem de leitura. Para dados estruturados (pares chave-valor, tabelas), você precisa do Document Intelligence, que se baseia no OCR mas adiciona compreensão de documentos

Verificação de Conhecimento

1. Uma empresa recebe milhares de faturas em papel e precisa extrair automaticamente o nome do fornecedor, data da fatura e valor total para o sistema contábil. Qual serviço do Azure é mais apropriado?

2. Um desenvolvedor precisa extrair todo o texto de fotografias de placas de rua em múltiplos idiomas. Qual capacidade do Azure ele deve usar?

3. O que a Read API retorna além do texto extraído?

4. Qual dos seguintes a Azure AI Vision Read API pode processar?

5. Qual é a diferença principal entre OCR (Read API) e Document Intelligence?

Saiba Mais