Desafio 11: Detecção de Objetos

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Visão Computacional no Azure (15-20%)

Habilidades do exame abordadas

Identificar recursos de soluções de detecção de objetos
Compreender caixas delimitadoras e scores de confiança
Diferenciar detecção de objetos de classificação de imagens
Identificar casos de uso para detecção de objetos

Visão geral

A detecção de objetos vai além da classificação de imagens, não apenas identificando QUAIS objetos estão em uma imagem, mas também ONDE eles estão localizados. Para cada objeto detectado, o modelo retorna uma caixa delimitadora (coordenadas de retângulo) e um score de confiança. Uma imagem pode conter múltiplos objetos de diferentes tipos.

Pense na detecção de objetos como um fotógrafo de vida selvagem catalogando animais em uma foto. A classificação diz "esta foto contém elefantes." A detecção de objetos diz "há 3 elefantes: um no canto superior esquerdo, um no centro e um no canto inferior direito" — cada um marcado com um retângulo e um nível de confiança.

A diferença-chave em relação à classificação: a classificação rotula a imagem inteira como uma coisa. A detecção de objetos encontra múltiplos objetos individuais dentro da imagem e diz exatamente onde cada um está. Isso é crítico para aplicações como direção autônoma (onde está cada carro, pedestre e placa de trânsito?) ou análise de varejo (quantas pessoas estão em cada corredor?).

Explorar

Tarefa 1: Entendendo caixas delimitadoras

Uma caixa delimitadora define a localização de um objeto detectado usando coordenadas:

┌─────────────────────────────────┐
│                                 │
│    ┌──────────┐                 │
│    │  Dog     │   ┌────────┐   │
│    │  0.94    │   │  Cat   │   │
│    └──────────┘   │  0.87  │   │
│                   └────────┘   │
│                                 │
└─────────────────────────────────┘

Cada detecção inclui:

Classe/rótulo: O que o objeto é ("cachorro", "gato")
Score de confiança: Quão certo o modelo está (0.94 = 94%)
Caixa delimitadora: Coordenadas que definem o retângulo (x, y, largura, altura)

Tarefa 2: Detecção de objetos vs classificação vs segmentação

Técnica	Pergunta respondida	Saída	Exemplo
Classificação de Imagens	"O que é esta imagem?"	Rótulo(s) para a imagem inteira	"Esta é uma cena de praia"
Detecção de Objetos	"Que objetos estão aqui e ONDE?"	Rótulos + caixas delimitadoras	"Carro em (100,200), pessoa em (400,300)"
Segmentação de Instâncias	"Qual é a forma de cada objeto?"	Rótulos + contornos em nível de pixel	Contorno exato de cada carro, pessoa

Para o exame: Foque na distinção entre classificação e detecção. O diferenciador-chave são as caixas delimitadoras/localização.

Tarefa 3: Explore demos de detecção de objetos

Visite o demo do Azure AI Vision
Experimente os recursos de Dense Captioning ou Object Detection
Faça upload de uma imagem com múltiplos objetos (ex.: uma cena de rua)
Observe:
- Múltiplos objetos detectados em uma imagem
- Cada objeto tem uma caixa delimitadora desenhada ao redor
- Scores de confiança variam por objeto
- O modelo pode detectar o MESMO tipo de objeto múltiplas vezes (3 carros, 2 pessoas)

Tarefa 4: Casos de uso reais de detecção de objetos

Indústria	Caso de uso	O que é detectado
Varejo	Contagem de clientes e análise de fluxo	Pessoas nos corredores da loja
Veículos autônomos	Navegação segura	Carros, pedestres, placas, faixas
Manufatura	Inspeção de qualidade	Defeitos, componentes, problemas de alinhamento
Segurança	Alertas de vigilância	Pessoas, veículos, armas
Agricultura	Monitoramento de culturas	Ervas daninhas, pragas, frutas maduras
Saúde	Imagens médicas	Tumores, fraturas, anomalias

Detecção de Objetos Personalizada com Azure Custom Vision:

Treine com SUAS imagens e SEUS tipos de objetos
Rotule objetos desenhando caixas delimitadoras nas imagens de treinamento
Precisa de pelo menos 15 imagens marcadas por tipo de objeto
O modelo aprende a encontrar SEUS objetos específicos em novas imagens

Estratégia para o exame

Procure estas palavras-chave nos cenários do exame:

"Localizar", "encontrar onde", "caixa delimitadora", "posição" → Detecção de Objetos
"Quantos de X estão na imagem" → Detecção de Objetos (contar requer localizar cada instância)
"O que é esta imagem?" (imagem inteira) → Classificação

Conceitos-Chave

Conceito	Definição
Detecção de objetos	Identificar e localizar múltiplos objetos dentro de uma imagem usando caixas delimitadoras
Caixa delimitadora	Retângulo definido por coordenadas (x, y, largura, altura) que emoldura um objeto detectado
Limiar de confiança	Score de confiança mínimo necessário para aceitar uma detecção como válida
IoU (Intersection over Union)	Métrica que mede quanto uma caixa delimitadora prevista se sobrepõe à localização verdadeira
Múltiplas detecções	Uma imagem pode conter muitos objetos; cada um recebe sua própria caixa e rótulo
Custom Vision (Detecção de Objetos)	Serviço do Azure para treinar detectores de objetos personalizados com suas próprias imagens rotuladas
Detecção em tempo real	Processar quadros de vídeo em tempo real para detectar objetos continuamente

Equívocos Comuns

Equívoco	Realidade
"Detecção de objetos é apenas classificação de imagens com localizações"	São relacionados mas distintos. Classificação rotula a imagem inteira. Detecção de objetos encontra e localiza objetos individuais — lida com múltiplos objetos, objetos sobrepostos e objetos de diferentes tipos em uma imagem
"Detecção de objetos só pode encontrar um objeto por vez"	Detecção de objetos encontra TODOS os objetos em uma imagem simultaneamente. Uma cena de rua pode retornar 5 carros, 3 pessoas, 2 semáforos, todos com caixas delimitadoras separadas
"Caixas delimitadoras sempre estão perfeitamente alinhadas com objetos"	Caixas delimitadoras são retângulos — elas aproximam a localização do objeto. Para formas irregulares, a caixa inclui algum fundo. Segmentação de instâncias fornece contornos precisos em nível de pixel
"Você precisa de vídeo para detecção de objetos"	Detecção de objetos funciona em imagens individuais. Quando aplicada a vídeo, processa quadros individuais. Vídeo em tempo real é apenas processamento rápido de imagens
"Limiar de confiança mais alto é sempre melhor"	Limiares mais altos significam menos falsos positivos mas mais detecções perdidas. O limiar certo depende do caso de uso — um carro autônomo precisa detectar TODOS os pedestres (limiar menor, maior recall)

Verificação de Conhecimento

1. Uma loja de varejo quer contar quantos clientes estão em cada departamento a qualquer momento usando câmeras de segurança. Qual técnica de visão computacional é mais apropriada?

2. Que informação uma caixa delimitadora fornece na detecção de objetos?

3. Um sistema de veículo autônomo detecta um pedestre com confiança de 0.55 e o limiar de segurança está definido em 0.30. O que o sistema deve fazer?

4. Qual é a característica PRINCIPAL que distingue a detecção de objetos da classificação de imagens?

5. Uma única imagem processada por um modelo de detecção de objetos mostra uma cena de rua. Qual resultado é mais provável?

Habilidades do exame abordadas​

Visão geral​

Explorar​

Tarefa 1: Entendendo caixas delimitadoras​

Tarefa 2: Detecção de objetos vs classificação vs segmentação​

Tarefa 3: Explore demos de detecção de objetos​

Tarefa 4: Casos de uso reais de detecção de objetos​

Conceitos-Chave​

Equívocos Comuns​

Verificação de Conhecimento​

Saiba Mais​