Challenge 06: Classificação em Machine Learning

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Machine Learning no Azure (15-20%)

Habilidades do exame abordadas

Identificar cenários de machine learning com classificação
Descrever classificação binária vs classificação multiclasse
Entender treinamento e avaliação de modelos de classificação
Identificar métricas de avaliação apropriadas para classificação

Visão Geral

Classificação é a técnica de machine learning usada para prever uma categoria (também chamada de classe ou rótulo). Sempre que a resposta para sua pergunta é "a qual grupo isso pertence?" — você está diante de um problema de classificação. Spam/não-spam, doença/saudável, gato/cachorro/pássaro — todos são classificação.

Pense na classificação como um classificador de correspondência nos correios. Cartas chegam, e o classificador coloca cada uma na caixa correta com base em features (CEP, tamanho, peso). O classificador aprendeu as regras vendo milhares de cartas previamente classificadas (dados de treinamento). Agora ele pode classificar novas cartas que nunca viu antes.

Existem dois tipos: classificação binária tem exatamente dois resultados possíveis (sim/não, verdadeiro/falso, spam/não-spam). Classificação multiclasse tem três ou mais resultados possíveis (gato/cachorro/pássaro, ou categorizar tickets de suporte em cobrança/técnico/frete/outros).

Explorar

Tarefa 1: Classificação binária vs multiclasse

Tipo	Número de classes	Exemplos
Binária	Exatamente 2	Spam ou não spam, fraude ou legítima, aprovado ou reprovado, sentimento positivo ou negativo
Multiclasse	3 ou mais	Espécie animal (gato/cachorro/pássaro/peixe), categoria de produto, detecção de idioma, tipo de doença

Regra principal: Se a saída é uma de DUAS categorias possíveis → binária. Se TRÊS ou mais → multiclasse.

Tarefa 2: Identificar cenários de classificação

Cenário	Tipo	Por quê
Esta transação de cartão de crédito é fraudulenta?	Binária	Dois resultados: fraude / não fraude
Em qual idioma este texto está escrito?	Multiclasse	Muitos idiomas possíveis
Este cliente vai cancelar (churn)?	Binária	Dois resultados: sim / não
Qual tipo de flor íris é esta?	Multiclasse	Três espécies: setosa, versicolor, virginica
Este raio-X mostra pneumonia?	Binária	Dois resultados: pneumonia / normal
Qual departamento deve tratar este ticket?	Multiclasse	Múltiplos departamentos (cobrança, técnico, frete...)

Tarefa 3: Explorar Automated ML para classificação

O Automated ML do Azure Machine Learning pode construir modelos de classificação com esforço mínimo:

Visite o Azure Machine Learning Studio
Revise o conceito de Automated ML:
- Você fornece um dataset rotulado (features + categorias conhecidas)
- O Automated ML testa múltiplos algoritmos e configurações
- Ele retorna o modelo com melhor desempenho automaticamente
Para o exame, entenda estas capacidades do Automated ML:
- Proteções de dados: Verifica automaticamente problemas de qualidade dos dados
- Seleção de algoritmo: Testa múltiplos algoritmos (regressão logística, árvores de decisão, etc.)
- Ajuste de hiperparâmetros: Otimiza configurações do modelo automaticamente
- Engenharia de features: Pode criar novas features a partir de dados existentes

Tarefa 4: Entender métricas de avaliação de classificação

Métrica	O que mede	Explicação simples
Acurácia	Correção geral	"Qual % das previsões estava correta?"
Precisão	Qualidade das previsões positivas	"Quando ele diz 'spam', com que frequência está certo?"
Recall	Completude da detecção positiva	"De todo spam real, qual % ele capturou?"
F1 Score	Equilíbrio entre precisão e recall	Média harmônica — útil quando classes são desbalanceadas
AUC	Capacidade do modelo de distinguir classes	1,0 = perfeito, 0,5 = adivinhação aleatória

Exemplo: Um filtro de spam com alta precisão mas baixo recall significa: quando ele marca algo como spam, geralmente está certo — mas ele perde muito spam real.

Insight para o exame

O exame adora perguntas sobre quando a acurácia sozinha é enganosa. Se 99% dos e-mails são legítimos e 1% são spam, um modelo que diz "não é spam" para tudo tem 99% de acurácia mas pega ZERO spam. É por isso que precisão, recall e AUC importam.

Conceitos-Chave

Conceito	Definição
Classificação	Técnica de ML que prevê a qual categoria/classe um item pertence
Classificação binária	Classificação com exatamente dois resultados possíveis
Classificação multiclasse	Classificação com três ou mais resultados possíveis
Regressão logística	Algoritmo comum para classificação binária (apesar do nome, ele classifica)
Matriz de confusão	Tabela mostrando verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
Precisão	De todos os itens previstos como positivos, qual percentual realmente é positivo
Recall (Sensibilidade)	De todos os itens realmente positivos, qual percentual o modelo identificou corretamente
AUC (Área Sob a Curva)	Mede quão bem o modelo separa as classes (0,5 a 1,0)

Conceitos Errôneos Comuns

Conceito errôneo	Realidade
"Classificação e regressão são intercambiáveis"	Classificação prevê categorias (spam/não-spam). Regressão prevê números (R$500, 73 graus). O tipo de saída determina qual técnica usar
"Classificação binária só pode retornar 'sim' ou 'não'"	Binária significa duas classes, mas podem ser qualquer coisa: spam/ham, maligno/benigno, aprovado/negado. São sempre exatamente dois resultados
"Regressão logística é uma técnica de regressão"	Apesar do nome, regressão logística é usada para classificação. Ela retorna uma probabilidade (0 a 1) que é então convertida em um rótulo de classe
"Maior acurácia sempre significa um modelo melhor"	Com datasets desbalanceados, acurácia é enganosa. Um modelo que prevê a classe majoritária sempre pode ter alta acurácia mas zero utilidade para detectar a classe minoritária
"Você precisa de milhares de exemplos para classificar"	Embora mais dados geralmente ajudem, a quantidade necessária depende da complexidade do problema. Alguns problemas funcionam bem com centenas de exemplos por classe

Verificação de Conhecimento

1. Um hospital quer prever se um tumor é maligno ou benigno com base em medições celulares. Que tipo de problema de machine learning é esse?

2. Um sistema de reconhecimento de imagem precisa identificar se uma foto contém um gato, cachorro, pássaro ou peixe. Que tipo de classificação é essa?

3. Um modelo de detecção de spam tem alta precisão mas baixo recall. O que isso significa na prática?

4. Qual capacidade do Azure Machine Learning tenta automaticamente múltiplos algoritmos e seleciona o melhor modelo de classificação?

5. Qual é a diferença principal entre um problema de classificação e um problema de regressão?

Habilidades do exame abordadas​

Visão Geral​

Explorar​

Tarefa 1: Classificação binária vs multiclasse​

Tarefa 2: Identificar cenários de classificação​

Tarefa 3: Explorar Automated ML para classificação​

Tarefa 4: Entender métricas de avaliação de classificação​

Conceitos-Chave​

Conceitos Errôneos Comuns​

Verificação de Conhecimento​

Saiba Mais​