Pular para o conteúdo principal

Desafio 11: Detecção de Objetos

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Visão Computacional no Azure (15-20%)

Habilidades do exame abordadas

  • Identificar recursos de soluções de detecção de objetos
  • Compreender caixas delimitadoras e scores de confiança
  • Diferenciar detecção de objetos de classificação de imagens
  • Identificar casos de uso para detecção de objetos

Visão geral

A detecção de objetos vai além da classificação de imagens, não apenas identificando QUAIS objetos estão em uma imagem, mas também ONDE eles estão localizados. Para cada objeto detectado, o modelo retorna uma caixa delimitadora (coordenadas de retângulo) e um score de confiança. Uma imagem pode conter múltiplos objetos de diferentes tipos.

Pense na detecção de objetos como um fotógrafo de vida selvagem catalogando animais em uma foto. A classificação diz "esta foto contém elefantes." A detecção de objetos diz "há 3 elefantes: um no canto superior esquerdo, um no centro e um no canto inferior direito" — cada um marcado com um retângulo e um nível de confiança.

A diferença-chave em relação à classificação: a classificação rotula a imagem inteira como uma coisa. A detecção de objetos encontra múltiplos objetos individuais dentro da imagem e diz exatamente onde cada um está. Isso é crítico para aplicações como direção autônoma (onde está cada carro, pedestre e placa de trânsito?) ou análise de varejo (quantas pessoas estão em cada corredor?).

Explorar

Tarefa 1: Entendendo caixas delimitadoras

Uma caixa delimitadora define a localização de um objeto detectado usando coordenadas:

┌─────────────────────────────────┐
│ │
│ ┌──────────┐ │
│ │ Dog │ ┌────────┐ │
│ │ 0.94 │ │ Cat │ │
│ └──────────┘ │ 0.87 │ │
│ └────────┘ │
│ │
└─────────────────────────────────┘

Cada detecção inclui:

  • Classe/rótulo: O que o objeto é ("cachorro", "gato")
  • Score de confiança: Quão certo o modelo está (0.94 = 94%)
  • Caixa delimitadora: Coordenadas que definem o retângulo (x, y, largura, altura)

Tarefa 2: Detecção de objetos vs classificação vs segmentação

TécnicaPergunta respondidaSaídaExemplo
Classificação de Imagens"O que é esta imagem?"Rótulo(s) para a imagem inteira"Esta é uma cena de praia"
Detecção de Objetos"Que objetos estão aqui e ONDE?"Rótulos + caixas delimitadoras"Carro em (100,200), pessoa em (400,300)"
Segmentação de Instâncias"Qual é a forma de cada objeto?"Rótulos + contornos em nível de pixelContorno exato de cada carro, pessoa

Para o exame: Foque na distinção entre classificação e detecção. O diferenciador-chave são as caixas delimitadoras/localização.

Tarefa 3: Explore demos de detecção de objetos

  1. Visite o demo do Azure AI Vision
  2. Experimente os recursos de Dense Captioning ou Object Detection
  3. Faça upload de uma imagem com múltiplos objetos (ex.: uma cena de rua)
  4. Observe:
    • Múltiplos objetos detectados em uma imagem
    • Cada objeto tem uma caixa delimitadora desenhada ao redor
    • Scores de confiança variam por objeto
    • O modelo pode detectar o MESMO tipo de objeto múltiplas vezes (3 carros, 2 pessoas)

Tarefa 4: Casos de uso reais de detecção de objetos

IndústriaCaso de usoO que é detectado
VarejoContagem de clientes e análise de fluxoPessoas nos corredores da loja
Veículos autônomosNavegação seguraCarros, pedestres, placas, faixas
ManufaturaInspeção de qualidadeDefeitos, componentes, problemas de alinhamento
SegurançaAlertas de vigilânciaPessoas, veículos, armas
AgriculturaMonitoramento de culturasErvas daninhas, pragas, frutas maduras
SaúdeImagens médicasTumores, fraturas, anomalias

Detecção de Objetos Personalizada com Azure Custom Vision:

  • Treine com SUAS imagens e SEUS tipos de objetos
  • Rotule objetos desenhando caixas delimitadoras nas imagens de treinamento
  • Precisa de pelo menos 15 imagens marcadas por tipo de objeto
  • O modelo aprende a encontrar SEUS objetos específicos em novas imagens
Estratégia para o exame

Procure estas palavras-chave nos cenários do exame:

  • "Localizar", "encontrar onde", "caixa delimitadora", "posição" → Detecção de Objetos
  • "Quantos de X estão na imagem" → Detecção de Objetos (contar requer localizar cada instância)
  • "O que é esta imagem?" (imagem inteira) → Classificação

Conceitos-Chave

ConceitoDefinição
Detecção de objetosIdentificar e localizar múltiplos objetos dentro de uma imagem usando caixas delimitadoras
Caixa delimitadoraRetângulo definido por coordenadas (x, y, largura, altura) que emoldura um objeto detectado
Limiar de confiançaScore de confiança mínimo necessário para aceitar uma detecção como válida
IoU (Intersection over Union)Métrica que mede quanto uma caixa delimitadora prevista se sobrepõe à localização verdadeira
Múltiplas detecçõesUma imagem pode conter muitos objetos; cada um recebe sua própria caixa e rótulo
Custom Vision (Detecção de Objetos)Serviço do Azure para treinar detectores de objetos personalizados com suas próprias imagens rotuladas
Detecção em tempo realProcessar quadros de vídeo em tempo real para detectar objetos continuamente

Equívocos Comuns

EquívocoRealidade
"Detecção de objetos é apenas classificação de imagens com localizações"São relacionados mas distintos. Classificação rotula a imagem inteira. Detecção de objetos encontra e localiza objetos individuais — lida com múltiplos objetos, objetos sobrepostos e objetos de diferentes tipos em uma imagem
"Detecção de objetos só pode encontrar um objeto por vez"Detecção de objetos encontra TODOS os objetos em uma imagem simultaneamente. Uma cena de rua pode retornar 5 carros, 3 pessoas, 2 semáforos, todos com caixas delimitadoras separadas
"Caixas delimitadoras sempre estão perfeitamente alinhadas com objetos"Caixas delimitadoras são retângulos — elas aproximam a localização do objeto. Para formas irregulares, a caixa inclui algum fundo. Segmentação de instâncias fornece contornos precisos em nível de pixel
"Você precisa de vídeo para detecção de objetos"Detecção de objetos funciona em imagens individuais. Quando aplicada a vídeo, processa quadros individuais. Vídeo em tempo real é apenas processamento rápido de imagens
"Limiar de confiança mais alto é sempre melhor"Limiares mais altos significam menos falsos positivos mas mais detecções perdidas. O limiar certo depende do caso de uso — um carro autônomo precisa detectar TODOS os pedestres (limiar menor, maior recall)

Verificação de Conhecimento

1. Uma loja de varejo quer contar quantos clientes estão em cada departamento a qualquer momento usando câmeras de segurança. Qual técnica de visão computacional é mais apropriada?

2. Que informação uma caixa delimitadora fornece na detecção de objetos?

3. Um sistema de veículo autônomo detecta um pedestre com confiança de 0.55 e o limiar de segurança está definido em 0.30. O que o sistema deve fazer?

4. Qual é a característica PRINCIPAL que distingue a detecção de objetos da classificação de imagens?

5. Uma única imagem processada por um modelo de detecção de objetos mostra uma cena de rua. Qual resultado é mais provável?

Saiba Mais