Desafio 12: Reconhecimento Óptico de Caracteres (OCR)

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Visão Computacional no Azure (15-20%)

Habilidades do exame abordadas

Identificar recursos de soluções de reconhecimento óptico de caracteres (OCR)
Compreender a diferença entre OCR e inteligência de documentos
Identificar serviços do Azure para leitura de texto em imagens
Descrever capacidades da Read API

Visão geral

Reconhecimento Óptico de Caracteres (OCR) é a tecnologia que extrai texto de imagens e documentos. Sempre que você fotografa um documento, digitaliza um recibo ou aponta seu celular para uma placa e ele "lê" o texto — isso é OCR em ação.

Pense no OCR como ensinar um computador a ler. Quando você olha para uma foto de um menu de restaurante, você instantaneamente reconhece letras e palavras. O OCR faz a mesma coisa — identifica as formas dos caracteres em uma imagem e os converte em texto legível por máquina que aplicações podem processar, pesquisar e armazenar.

O Azure fornece OCR através de dois serviços principais: Azure AI Vision (Read API) para extração geral de texto de imagens, e Azure AI Document Intelligence para processamento estruturado de documentos. A Read API lida com texto impresso e manuscrito de qualquer imagem. O Document Intelligence vai além — ele compreende a estrutura do documento (campos, tabelas, pares chave-valor) de tipos específicos de documentos como faturas, recibos e formulários.

Explorar

Tarefa 1: OCR vs Document Intelligence

Recurso	Azure AI Vision (Read API)	Azure AI Document Intelligence
O que extrai	Texto bruto de imagens	Campos estruturados, tabelas e pares chave-valor
Entrada	Qualquer imagem com texto	Documentos (faturas, recibos, formulários, IDs)
Saída	Linhas e palavras com posições	Campos nomeados (ex.: "TotalFatura: R$ 1.234,56")
Caso de uso	Ler uma placa, extrair texto de um screenshot	Processar 10.000 faturas e extrair totais, datas, fornecedores
Analogia	Ler texto em voz alta	Preencher uma planilha a partir de um formulário

Distinção principal: OCR lê texto caractere por caractere. Document Intelligence COMPREENDE a estrutura do documento — ele sabe qual número é o "total" e qual é a "data."

Tarefa 2: Experimente o demo de OCR do Azure AI Vision

Visite o demo do Azure AI Vision
Selecione a opção "Extract text from images"
Tente com uma imagem de exemplo ou faça upload da sua (foto de uma placa, documento ou manuscrito)
Observe os resultados:
- Texto é extraído linha por linha
- Cada palavra tem coordenadas de posição (polígono delimitador)
- Tanto texto impresso quanto manuscrito pode ser detectado
- O texto é retornado na ordem de leitura

Tarefa 3: Entenda a estrutura de resposta da Read API

A Read API retorna uma estrutura hierárquica:

Read Result
├── Page 1
│   ├── Line 1: "Invoice #12345"
│   │   ├── Word: "Invoice" (confidence: 0.99, position: [x,y,w,h])
│   │   └── Word: "#12345" (confidence: 0.97, position: [x,y,w,h])
│   ├── Line 2: "Date: January 15, 2024"
│   │   ├── Word: "Date:" (confidence: 0.99)
│   │   ├── Word: "January" (confidence: 0.98)
│   │   └── ...
│   └── ...
└── Page 2 (if multi-page document)
    └── ...

Recursos principais da Read API:

Lida com texto impresso e manuscrito
Suporta múltiplos idiomas (120+ idiomas)
Funciona com texto rotacionado e inclinado
Processa documentos de múltiplas páginas (PDF, TIFF)
Retorna scores de confiança para cada palavra

Tarefa 4: Modelos pré-construídos do Document Intelligence

O Azure AI Document Intelligence oferece modelos pré-construídos para tipos comuns de documentos:

Modelo pré-construído	O que extrai
Fatura	Nome do fornecedor, total da fatura, data de vencimento, itens de linha
Recibo	Comerciante, data, total, imposto, itens comprados
Documento de identidade	Nome, data de nascimento, número do documento, expiração
Cartão de visita	Nome, empresa, email, número de telefone
Formulário fiscal W-2	Informações do funcionário, salários, impostos retidos
Cartão de plano de saúde	Informações do membro, detalhes do plano, número do grupo

Modelos personalizados: Se seus documentos não correspondem aos modelos pré-construídos, você pode treinar o Document Intelligence com suas próprias amostras de documentos.

Alternativa via Azure CLI

# Analisar uma imagem com a Read API
az cognitiveservices account show \
  --name my-ai-services \
  --resource-group my-rg \
  --query "properties.endpoint"

# Document Intelligence é acessado via REST API:
# POST {endpoint}/documentintelligence/documentModels/prebuilt-invoice:analyze?api-version=2024-02-29

Conceitos-Chave

Conceito	Definição
OCR (Reconhecimento Óptico de Caracteres)	Tecnologia que extrai texto de imagens e documentos digitalizados
Read API	Capacidade do Azure AI Vision que extrai texto impresso e manuscrito
Azure AI Document Intelligence	Serviço que extrai dados estruturados (campos, tabelas) de documentos
Caixa/polígono delimitador	Coordenadas indicando onde cada palavra/linha aparece na imagem
Texto impresso	Texto gerado por máquina (fontes) — maior precisão
Texto manuscrito	Texto escrito à mão — mais desafiador, menor precisão
Modelo pré-construído	Modelo pré-treinado do Document Intelligence para tipos específicos de documentos
Modelo personalizado	Modelo treinado pelo usuário do Document Intelligence para formatos únicos de documentos
Score de confiança	Medida de confiabilidade (0-1) para cada palavra extraída

Equívocos Comuns

Equívoco	Realidade
"OCR e Document Intelligence são a mesma coisa"	OCR extrai texto bruto (caracteres e palavras). Document Intelligence compreende a ESTRUTURA do documento — ele sabe qual texto é uma data, qual é um total e qual é o nome de um fornecedor
"OCR só funciona com texto impresso"	A Read API do Azure lida com texto impresso e manuscrito. Texto impresso tipicamente tem maior precisão, mas o reconhecimento de manuscrito melhorou dramaticamente
"OCR requer imagens perfeitamente claras e retas"	OCR moderno lida com texto rotacionado, inclinado e até parcialmente obstruído. A Read API compensa qualidade de imagem imperfeita
"Document Intelligence requer treinamento personalizado para cada tipo de documento"	Modelos pré-construídos funcionam imediatamente para documentos comuns (faturas, recibos, IDs). Treinamento personalizado só é necessário para formatos de documentos únicos/proprietários
"OCR fornece dados estruturados diretamente"	OCR fornece texto bruto na ordem de leitura. Para dados estruturados (pares chave-valor, tabelas), você precisa do Document Intelligence, que se baseia no OCR mas adiciona compreensão de documentos

Verificação de Conhecimento

1. Uma empresa recebe milhares de faturas em papel e precisa extrair automaticamente o nome do fornecedor, data da fatura e valor total para o sistema contábil. Qual serviço do Azure é mais apropriado?

2. Um desenvolvedor precisa extrair todo o texto de fotografias de placas de rua em múltiplos idiomas. Qual capacidade do Azure ele deve usar?

3. O que a Read API retorna além do texto extraído?

4. Qual dos seguintes a Azure AI Vision Read API pode processar?

5. Qual é a diferença principal entre OCR (Read API) e Document Intelligence?

Habilidades do exame abordadas​

Visão geral​

Explorar​

Tarefa 1: OCR vs Document Intelligence​

Tarefa 2: Experimente o demo de OCR do Azure AI Vision​

Tarefa 3: Entenda a estrutura de resposta da Read API​

Tarefa 4: Modelos pré-construídos do Document Intelligence​

Conceitos-Chave​

Equívocos Comuns​

Verificação de Conhecimento​

Saiba Mais​