Desafio 11: Detecção de Objetos
25-35 min | Custo: Gratuito | Domínio: Visão Computacional no Azure (15-20%)
Habilidades do exame abordadas
- Identificar recursos de soluções de detecção de objetos
- Compreender caixas delimitadoras e scores de confiança
- Diferenciar detecção de objetos de classificação de imagens
- Identificar casos de uso para detecção de objetos
Visão geral
A detecção de objetos vai além da classificação de imagens, não apenas identificando QUAIS objetos estão em uma imagem, mas também ONDE eles estão localizados. Para cada objeto detectado, o modelo retorna uma caixa delimitadora (coordenadas de retângulo) e um score de confiança. Uma imagem pode conter múltiplos objetos de diferentes tipos.
Pense na detecção de objetos como um fotógrafo de vida selvagem catalogando animais em uma foto. A classificação diz "esta foto contém elefantes." A detecção de objetos diz "há 3 elefantes: um no canto superior esquerdo, um no centro e um no canto inferior direito" — cada um marcado com um retângulo e um nível de confiança.
A diferença-chave em relação à classificação: a classificação rotula a imagem inteira como uma coisa. A detecção de objetos encontra múltiplos objetos individuais dentro da imagem e diz exatamente onde cada um está. Isso é crítico para aplicações como direção autônoma (onde está cada carro, pedestre e placa de trânsito?) ou análise de varejo (quantas pessoas estão em cada corredor?).
Explorar
Tarefa 1: Entendendo caixas delimitadoras
Uma caixa delimitadora define a localização de um objeto detectado usando coordenadas:
┌─────────────────────────────────┐
│ │
│ ┌──────────┐ │
│ │ Dog │ ┌────────┐ │
│ │ 0.94 │ │ Cat │ │
│ └──────────┘ │ 0.87 │ │
│ └────────┘ │
│ │
└─────────────────────────────────┘
Cada detecção inclui:
- Classe/rótulo: O que o objeto é ("cachorro", "gato")
- Score de confiança: Quão certo o modelo está (0.94 = 94%)
- Caixa delimitadora: Coordenadas que definem o retângulo (x, y, largura, altura)
Tarefa 2: Detecção de objetos vs classificação vs segmentação
| Técnica | Pergunta respondida | Saída | Exemplo |
|---|---|---|---|
| Classificação de Imagens | "O que é esta imagem?" | Rótulo(s) para a imagem inteira | "Esta é uma cena de praia" |
| Detecção de Objetos | "Que objetos estão aqui e ONDE?" | Rótulos + caixas delimitadoras | "Carro em (100,200), pessoa em (400,300)" |
| Segmentação de Instâncias | "Qual é a forma de cada objeto?" | Rótulos + contornos em nível de pixel | Contorno exato de cada carro, pessoa |
Para o exame: Foque na distinção entre classificação e detecção. O diferenciador-chave são as caixas delimitadoras/localização.
Tarefa 3: Explore demos de detecção de objetos
- Visite o demo do Azure AI Vision
- Experimente os recursos de Dense Captioning ou Object Detection
- Faça upload de uma imagem com múltiplos objetos (ex.: uma cena de rua)
- Observe:
- Múltiplos objetos detectados em uma imagem
- Cada objeto tem uma caixa delimitadora desenhada ao redor
- Scores de confiança variam por objeto
- O modelo pode detectar o MESMO tipo de objeto múltiplas vezes (3 carros, 2 pessoas)
Tarefa 4: Casos de uso reais de detecção de objetos
| Indústria | Caso de uso | O que é detectado |
|---|---|---|
| Varejo | Contagem de clientes e análise de fluxo | Pessoas nos corredores da loja |
| Veículos autônomos | Navegação segura | Carros, pedestres, placas, faixas |
| Manufatura | Inspeção de qualidade | Defeitos, componentes, problemas de alinhamento |
| Segurança | Alertas de vigilância | Pessoas, veículos, armas |
| Agricultura | Monitoramento de culturas | Ervas daninhas, pragas, frutas maduras |
| Saúde | Imagens médicas | Tumores, fraturas, anomalias |
Detecção de Objetos Personalizada com Azure Custom Vision:
- Treine com SUAS imagens e SEUS tipos de objetos
- Rotule objetos desenhando caixas delimitadoras nas imagens de treinamento
- Precisa de pelo menos 15 imagens marcadas por tipo de objeto
- O modelo aprende a encontrar SEUS objetos específicos em novas imagens
Procure estas palavras-chave nos cenários do exame:
- "Localizar", "encontrar onde", "caixa delimitadora", "posição" → Detecção de Objetos
- "Quantos de X estão na imagem" → Detecção de Objetos (contar requer localizar cada instância)
- "O que é esta imagem?" (imagem inteira) → Classificação
Conceitos-Chave
| Conceito | Definição |
|---|---|
| Detecção de objetos | Identificar e localizar múltiplos objetos dentro de uma imagem usando caixas delimitadoras |
| Caixa delimitadora | Retângulo definido por coordenadas (x, y, largura, altura) que emoldura um objeto detectado |
| Limiar de confiança | Score de confiança mínimo necessário para aceitar uma detecção como válida |
| IoU (Intersection over Union) | Métrica que mede quanto uma caixa delimitadora prevista se sobrepõe à localização verdadeira |
| Múltiplas detecções | Uma imagem pode conter muitos objetos; cada um recebe sua própria caixa e rótulo |
| Custom Vision (Detecção de Objetos) | Serviço do Azure para treinar detectores de objetos personalizados com suas próprias imagens rotuladas |
| Detecção em tempo real | Processar quadros de vídeo em tempo real para detectar objetos continuamente |
Equívocos Comuns
| Equívoco | Realidade |
|---|---|
| "Detecção de objetos é apenas classificação de imagens com localizações" | São relacionados mas distintos. Classificação rotula a imagem inteira. Detecção de objetos encontra e localiza objetos individuais — lida com múltiplos objetos, objetos sobrepostos e objetos de diferentes tipos em uma imagem |
| "Detecção de objetos só pode encontrar um objeto por vez" | Detecção de objetos encontra TODOS os objetos em uma imagem simultaneamente. Uma cena de rua pode retornar 5 carros, 3 pessoas, 2 semáforos, todos com caixas delimitadoras separadas |
| "Caixas delimitadoras sempre estão perfeitamente alinhadas com objetos" | Caixas delimitadoras são retângulos — elas aproximam a localização do objeto. Para formas irregulares, a caixa inclui algum fundo. Segmentação de instâncias fornece contornos precisos em nível de pixel |
| "Você precisa de vídeo para detecção de objetos" | Detecção de objetos funciona em imagens individuais. Quando aplicada a vídeo, processa quadros individuais. Vídeo em tempo real é apenas processamento rápido de imagens |
| "Limiar de confiança mais alto é sempre melhor" | Limiares mais altos significam menos falsos positivos mas mais detecções perdidas. O limiar certo depende do caso de uso — um carro autônomo precisa detectar TODOS os pedestres (limiar menor, maior recall) |
Verificação de Conhecimento
1. Uma loja de varejo quer contar quantos clientes estão em cada departamento a qualquer momento usando câmeras de segurança. Qual técnica de visão computacional é mais apropriada?
2. Que informação uma caixa delimitadora fornece na detecção de objetos?
3. Um sistema de veículo autônomo detecta um pedestre com confiança de 0.55 e o limiar de segurança está definido em 0.30. O que o sistema deve fazer?
4. Qual é a característica PRINCIPAL que distingue a detecção de objetos da classificação de imagens?
5. Uma única imagem processada por um modelo de detecção de objetos mostra uma cena de rua. Qual resultado é mais provável?