Pular para o conteúdo principal

Challenge 06: Classificação em Machine Learning

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Machine Learning no Azure (15-20%)

Habilidades do exame abordadas

  • Identificar cenários de machine learning com classificação
  • Descrever classificação binária vs classificação multiclasse
  • Entender treinamento e avaliação de modelos de classificação
  • Identificar métricas de avaliação apropriadas para classificação

Visão Geral

Classificação é a técnica de machine learning usada para prever uma categoria (também chamada de classe ou rótulo). Sempre que a resposta para sua pergunta é "a qual grupo isso pertence?" — você está diante de um problema de classificação. Spam/não-spam, doença/saudável, gato/cachorro/pássaro — todos são classificação.

Pense na classificação como um classificador de correspondência nos correios. Cartas chegam, e o classificador coloca cada uma na caixa correta com base em features (CEP, tamanho, peso). O classificador aprendeu as regras vendo milhares de cartas previamente classificadas (dados de treinamento). Agora ele pode classificar novas cartas que nunca viu antes.

Existem dois tipos: classificação binária tem exatamente dois resultados possíveis (sim/não, verdadeiro/falso, spam/não-spam). Classificação multiclasse tem três ou mais resultados possíveis (gato/cachorro/pássaro, ou categorizar tickets de suporte em cobrança/técnico/frete/outros).

Explorar

Tarefa 1: Classificação binária vs multiclasse

TipoNúmero de classesExemplos
BináriaExatamente 2Spam ou não spam, fraude ou legítima, aprovado ou reprovado, sentimento positivo ou negativo
Multiclasse3 ou maisEspécie animal (gato/cachorro/pássaro/peixe), categoria de produto, detecção de idioma, tipo de doença

Regra principal: Se a saída é uma de DUAS categorias possíveis → binária. Se TRÊS ou mais → multiclasse.

Tarefa 2: Identificar cenários de classificação

CenárioTipoPor quê
Esta transação de cartão de crédito é fraudulenta?BináriaDois resultados: fraude / não fraude
Em qual idioma este texto está escrito?MulticlasseMuitos idiomas possíveis
Este cliente vai cancelar (churn)?BináriaDois resultados: sim / não
Qual tipo de flor íris é esta?MulticlasseTrês espécies: setosa, versicolor, virginica
Este raio-X mostra pneumonia?BináriaDois resultados: pneumonia / normal
Qual departamento deve tratar este ticket?MulticlasseMúltiplos departamentos (cobrança, técnico, frete...)

Tarefa 3: Explorar Automated ML para classificação

O Automated ML do Azure Machine Learning pode construir modelos de classificação com esforço mínimo:

  1. Visite o Azure Machine Learning Studio
  2. Revise o conceito de Automated ML:
    • Você fornece um dataset rotulado (features + categorias conhecidas)
    • O Automated ML testa múltiplos algoritmos e configurações
    • Ele retorna o modelo com melhor desempenho automaticamente
  3. Para o exame, entenda estas capacidades do Automated ML:
    • Proteções de dados: Verifica automaticamente problemas de qualidade dos dados
    • Seleção de algoritmo: Testa múltiplos algoritmos (regressão logística, árvores de decisão, etc.)
    • Ajuste de hiperparâmetros: Otimiza configurações do modelo automaticamente
    • Engenharia de features: Pode criar novas features a partir de dados existentes

Tarefa 4: Entender métricas de avaliação de classificação

MétricaO que medeExplicação simples
AcuráciaCorreção geral"Qual % das previsões estava correta?"
PrecisãoQualidade das previsões positivas"Quando ele diz 'spam', com que frequência está certo?"
RecallCompletude da detecção positiva"De todo spam real, qual % ele capturou?"
F1 ScoreEquilíbrio entre precisão e recallMédia harmônica — útil quando classes são desbalanceadas
AUCCapacidade do modelo de distinguir classes1,0 = perfeito, 0,5 = adivinhação aleatória

Exemplo: Um filtro de spam com alta precisão mas baixo recall significa: quando ele marca algo como spam, geralmente está certo — mas ele perde muito spam real.

Insight para o exame

O exame adora perguntas sobre quando a acurácia sozinha é enganosa. Se 99% dos e-mails são legítimos e 1% são spam, um modelo que diz "não é spam" para tudo tem 99% de acurácia mas pega ZERO spam. É por isso que precisão, recall e AUC importam.

Conceitos-Chave

ConceitoDefinição
ClassificaçãoTécnica de ML que prevê a qual categoria/classe um item pertence
Classificação bináriaClassificação com exatamente dois resultados possíveis
Classificação multiclasseClassificação com três ou mais resultados possíveis
Regressão logísticaAlgoritmo comum para classificação binária (apesar do nome, ele classifica)
Matriz de confusãoTabela mostrando verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
PrecisãoDe todos os itens previstos como positivos, qual percentual realmente é positivo
Recall (Sensibilidade)De todos os itens realmente positivos, qual percentual o modelo identificou corretamente
AUC (Área Sob a Curva)Mede quão bem o modelo separa as classes (0,5 a 1,0)

Conceitos Errôneos Comuns

Conceito errôneoRealidade
"Classificação e regressão são intercambiáveis"Classificação prevê categorias (spam/não-spam). Regressão prevê números (R$500, 73 graus). O tipo de saída determina qual técnica usar
"Classificação binária só pode retornar 'sim' ou 'não'"Binária significa duas classes, mas podem ser qualquer coisa: spam/ham, maligno/benigno, aprovado/negado. São sempre exatamente dois resultados
"Regressão logística é uma técnica de regressão"Apesar do nome, regressão logística é usada para classificação. Ela retorna uma probabilidade (0 a 1) que é então convertida em um rótulo de classe
"Maior acurácia sempre significa um modelo melhor"Com datasets desbalanceados, acurácia é enganosa. Um modelo que prevê a classe majoritária sempre pode ter alta acurácia mas zero utilidade para detectar a classe minoritária
"Você precisa de milhares de exemplos para classificar"Embora mais dados geralmente ajudem, a quantidade necessária depende da complexidade do problema. Alguns problemas funcionam bem com centenas de exemplos por classe

Verificação de Conhecimento

1. Um hospital quer prever se um tumor é maligno ou benigno com base em medições celulares. Que tipo de problema de machine learning é esse?

2. Um sistema de reconhecimento de imagem precisa identificar se uma foto contém um gato, cachorro, pássaro ou peixe. Que tipo de classificação é essa?

3. Um modelo de detecção de spam tem alta precisão mas baixo recall. O que isso significa na prática?

4. Qual capacidade do Azure Machine Learning tenta automaticamente múltiplos algoritmos e seleciona o melhor modelo de classificação?

5. Qual é a diferença principal entre um problema de classificação e um problema de regressão?

Saiba Mais