Desafio 10: Classificação de Imagens
25-35 min | Custo: Gratuito | Domínio: Visão Computacional no Azure (15-20%)
Habilidades do exame abordadas
- Identificar recursos de soluções de classificação de imagens
- Descrever classificação de imagens de rótulo único e múltiplos rótulos
- Compreender scores de confiança em resultados de classificação
- Identificar serviços do Azure para classificação de imagens
Visão geral
Classificação de imagens é uma técnica de visão computacional que responde à pergunta: "O que há nesta imagem?" Dada uma imagem, o modelo atribui um ou mais rótulos de categoria com scores de confiança. É como mostrar uma foto para alguém e perguntar "o que é isso?" — exceto que a IA responde com probabilidades.
Pense na classificação de imagens como um guia de natureza identificando pássaros. Você mostra uma foto e ele diz "tenho 95% de certeza que é um cardeal, 3% azulão, 2% robin." Ele aprendeu a reconhecer centenas de espécies a partir de milhares de exemplos. Da mesma forma, um modelo de classificação de imagens aprende a partir de imagens de treinamento rotuladas para categorizar novas imagens que nunca viu.
Existem dois tipos: classificação de rótulo único atribui exatamente uma categoria (isso é OU um gato OU um cachorro), enquanto classificação de múltiplos rótulos pode atribuir múltiplas categorias (esta imagem contém TANTO uma praia QUANTO um pôr do sol QUANTO pessoas).
Explorar
Tarefa 1: Entender os tipos de classificação de imagens
| Tipo | Saída | Exemplo |
|---|---|---|
| Rótulo único | Uma categoria por imagem | "Isso é um gato" (não um cachorro, não um pássaro) |
| Múltiplos rótulos | Múltiplas categorias por imagem | "Isso contém: ar livre, praia, pessoas, pôr do sol" |
Scores de confiança: Toda previsão vem com uma probabilidade (0.0 a 1.0):
- 0.95 = 95% confiante → muito confiável
- 0.60 = 60% confiante → incerto, pode precisar de revisão humana
- Limiar: Aplicações tipicamente só aceitam previsões acima de uma certa confiança (ex.: > 0.7)
Tarefa 2: Experimente a análise de imagens do Azure AI Vision
- Visite o demo do Azure AI Vision
- Selecione ou faça upload de uma imagem de exemplo
- Observe os resultados:
- Tags — categorias/rótulos atribuídos à imagem
- Scores de confiança — quão certo o modelo está para cada tag
- Note que múltiplas tags podem ser retornadas (múltiplos rótulos)
- Tente diferentes tipos de imagens (paisagens, animais, comida, objetos) e observe como as tags mudam
Tarefa 3: Custom Vision vs Vision pré-construído
O Azure oferece duas abordagens para classificação de imagens:
| Abordagem | Quando usar | Como funciona |
|---|---|---|
| Azure AI Vision (pré-construído) | Compreensão geral de imagens | Pré-treinado com milhões de imagens; funciona imediatamente para objetos/cenas comuns |
| Custom Vision | Classificação específica de domínio | Você treina com SUAS imagens e SUAS categorias (ex.: produtos "defeituosos" vs "bons" na sua linha de montagem) |
Fluxo de trabalho do Custom Vision:
- Faça upload de imagens de treinamento rotuladas (pelo menos 15 por categoria recomendado)
- Treine o modelo (o Custom Vision cuida do ML)
- Teste com novas imagens
- Implante e use via API
Tarefa 4: Classificação de imagens no mundo real
| Indústria | Caso de uso | Tipo de classificação |
|---|---|---|
| Manufatura | Detecção de defeitos (peças boas/defeituosas) | Rótulo único binário |
| Varejo | Categorização de produtos a partir de fotos | Multi-classe rótulo único |
| Saúde | Classificação de lesões de pele (benigno/maligno) | Rótulo único binário |
| Agricultura | Identificação de doenças em culturas | Multi-classe rótulo único |
| Redes sociais | Moderação de conteúdo (apropriado/inapropriado) | Rótulo único binário |
| Fotografia | Auto-etiquetagem de fotos (praia, pessoas, pôr do sol...) | Múltiplos rótulos |
O exame distingue entre:
- Classificação de imagens: "O que é isso?" → atribui rótulo(s) à imagem inteira
- Detecção de objetos: "O que e ONDE?" → encontra objetos com caixas delimitadoras
- OCR: "Que texto está aqui?" → extrai texto de imagens
Saiba qual é qual!
Conceitos-Chave
| Conceito | Definição |
|---|---|
| Classificação de imagens | Atribuir rótulos de categoria a uma imagem inteira |
| Classificação de rótulo único | Cada imagem recebe exatamente uma categoria (classes mutuamente exclusivas) |
| Classificação de múltiplos rótulos | Cada imagem pode receber múltiplas categorias (tags não exclusivas) |
| Score de confiança | Probabilidade (0-1) indicando quão certo o modelo está sobre uma previsão |
| Imagens de treinamento | Exemplos rotulados usados para ensinar ao modelo como cada categoria se parece |
| Custom Vision | Serviço do Azure para treinar modelos personalizados de classificação de imagens com seus próprios dados |
| Azure AI Vision | Serviço pré-construído para análise geral de imagens (etiquetagem, descrição, categorização) |
| Limiar | Score de confiança mínimo necessário para aceitar uma previsão |
Equívocos Comuns
| Equívoco | Realidade |
|---|---|
| "Classificação de imagens diz ONDE os objetos estão na imagem" | Classificação só diz O QUE está na imagem (a imagem inteira). Detecção de objetos diz ONDE (com caixas delimitadoras). São tarefas diferentes |
| "Você precisa de milhares de imagens para treinar um classificador personalizado" | O Azure Custom Vision pode funcionar com apenas 15 imagens por categoria para classificação básica. Mais imagens melhoram a precisão, mas você pode começar pequeno |
| "Um score de confiança de 90% significa que o modelo tem 90% de precisão" | Confiança é por previsão — significa que o modelo tem 90% de certeza sobre ESTA imagem específica. A precisão geral do modelo é medida separadamente em muitas imagens de teste |
| "O Azure AI Vision pré-construído pode classificar qualquer coisa" | Modelos pré-construídos lidam com objetos e cenas comuns. Para categorias específicas de domínio (seus tipos de produto, defeitos específicos), você precisa do Custom Vision com seus próprios dados de treinamento |
| "Múltiplos rótulos significa que o modelo está incerto" | Múltiplos rótulos significa que a imagem legitimamente contém múltiplas coisas. Uma imagem com um cachorro na praia corretamente recebe as tags "cachorro" e "praia" — isso não é incerteza |
Verificação de Conhecimento
1. Um aplicativo de compartilhamento de fotos precisa etiquetar automaticamente fotos enviadas com rótulos relevantes como "ar livre", "comida", "pessoas" e "pôr do sol" — uma imagem pode ter múltiplas tags. Que tipo de classificação é essa?
2. Um modelo de classificação de imagens retorna um score de confiança de 0.45 para "gato" e 0.42 para "cachorro". O que o aplicativo deve fazer?
3. Uma empresa de manufatura precisa classificar produtos na linha de montagem como "aprovado" ou "reprovado" com base em fotos. As categorias são específicas dos produtos deles. Qual serviço do Azure é mais apropriado?
4. Qual é o número mínimo de imagens de treinamento recomendado por categoria ao usar o Azure Custom Vision?
5. Qual é a diferença principal entre classificação de imagens e detecção de objetos?