Challenge 07: Clustering em Machine Learning
20-30 min | Custo: Gratuito | Domínio: Machine Learning no Azure (15-20%)
Habilidades do exame abordadas
- Identificar cenários de machine learning com clustering
- Descrever como clustering difere de classificação
- Entender conceitos de aprendizado não supervisionado
- Identificar casos de uso apropriados para clustering
Visão Geral
Clustering é a técnica de machine learning usada para agrupar itens similares quando você não tem categorias predefinidas. Diferente da classificação (onde você conhece as categorias antecipadamente — spam/não-spam), o clustering descobre agrupamentos naturais nos dados por conta própria.
Pense no clustering como organizar uma gaveta bagunçada. Você despeja 100 itens e começa a agrupar coisas que parecem similares: canetas ficam juntas, pilhas ficam juntas, cabos ficam juntos. Ninguém disse essas categorias antecipadamente — você as descobriu observando similaridades. Isso é clustering.
A distinção crítica: classificação é aprendizado supervisionado (você fornece exemplos rotulados), enquanto clustering é aprendizado não supervisionado (nenhum rótulo necessário). Clustering encontra padrões e agrupamentos que você talvez não soubesse que existiam.
Explorar
Tarefa 1: Classificação vs Clustering
Entender a diferença é um dos conceitos mais cobrados:
| Aspecto | Classificação | Clustering |
|---|---|---|
| Tipo de aprendizado | Supervisionado | Não supervisionado |
| Rótulos necessários? | Sim — dados de treinamento têm categorias conhecidas | Não — nenhum rótulo necessário |
| Categorias | Predefinidas (você especifica) | Descobertas (o algoritmo encontra) |
| Objetivo | Atribuir itens a grupos CONHECIDOS | Descobrir grupos DESCONHECIDOS |
| Exemplo | "Este e-mail é spam" (rótulo conhecido) | "Estes clientes se comportam de forma similar" (grupos descobertos) |
Tarefa 2: Identificar cenários de clustering
| Cenário | Por que é clustering |
|---|---|
| Segmentação de clientes | Agrupar clientes por comportamento de compra para descobrir segmentos que você não sabia que existiam |
| Agrupamento de documentos | Organizar artigos por tópicos sem categorias predefinidas |
| Detecção de anomalias | Itens que não se encaixam em nenhum cluster podem ser outliers |
| Análise de expressão gênica | Agrupar genes com padrões de expressão similares |
| Compressão de imagem | Agrupar cores similares para reduzir o número de cores únicas |
NÃO é clustering (estes são classificação):
- Classificar e-mails em spam/não-spam (rótulos são conhecidos)
- Diagnosticar uma doença como Tipo A, B ou C (categorias predefinidas por médicos)
- Atribuir notas a redações de alunos como A/B/C/D/F (notas são predeterminadas)
Tarefa 3: Entender K-Means clustering
K-Means é o algoritmo de clustering mais comum e o referenciado no exame:
- Escolha K — decida quantos clusters você quer (ex: K=3 para 3 grupos)
- Inicialize — posicione K pontos centrais aleatórios (centroides)
- Atribua — cada ponto de dados se junta ao cluster do centroide mais próximo
- Atualize — mova cada centroide para o centro de seus pontos atribuídos
- Repita — continue atribuindo e atualizando até os clusters se estabilizarem
Decisões-chave:
- Quantos clusters (K)? — Não há resposta perfeita. Você tenta diferentes valores e avalia qual faz mais sentido para o negócio
- Quais features usar? — As features que você inclui determinam o que "similar" significa
Tarefa 4: Clustering no Azure Machine Learning
No Azure ML, você pode construir modelos de clustering usando:
-
Azure ML Designer — pipeline de clustering drag-and-drop
- Use o módulo "K-Means Clustering"
- Conecte a um dataset (nenhuma coluna de label necessária!)
- Configure o número de clusters
- Avalie resultados com métricas como silhouette score
-
Métricas-chave para clustering:
- Silhouette score: Mede quão similares os itens são ao seu próprio cluster vs. outros clusters (-1 a 1, maior é melhor)
- Inércia: Soma das distâncias dos pontos até o centro de seu cluster (menor é melhor)
O gatilho do exame para clustering: "Sem rótulos" ou "descobrir grupos" ou "segmentar clientes". Se o cenário diz "não sabemos as categorias ainda" ou "encontrar agrupamentos naturais" → clustering. Se as categorias já são conhecidas → classificação.
Conceitos-Chave
| Conceito | Definição |
|---|---|
| Clustering | Técnica de ML não supervisionada que agrupa pontos de dados similares |
| Aprendizado não supervisionado | Abordagem de ML que encontra padrões sem dados de treinamento rotulados |
| Aprendizado supervisionado | Abordagem de ML que usa dados de treinamento rotulados (classificação, regressão) |
| K-Means | Algoritmo de clustering popular que divide dados em K grupos baseado na distância aos centroides |
| Centroide | O ponto central de um cluster |
| K (número de clusters) | Um parâmetro que você escolhe — quantos grupos o algoritmo deve criar |
| Silhouette score | Métrica que mede quão bem separados os clusters estão (-1 a 1) |
| Segmentação de clientes | Caso de uso comum: agrupar clientes por comportamento para descobrir segmentos de mercado |
Conceitos Errôneos Comuns
| Conceito errôneo | Realidade |
|---|---|
| "Clustering e classificação são a mesma coisa" | Classificação atribui itens a categorias CONHECIDAS usando dados rotulados. Clustering DESCOBRE grupos desconhecidos sem rótulos. A presença ou ausência de rótulos predefinidos é a diferença-chave |
| "Clustering diz o que cada grupo significa" | Clustering encontra grupos de itens similares, mas interpretar o que cada grupo representa é uma tarefa humana. O algoritmo diz "esses itens são similares" — você decide o significado |
| "Você deve saber o número de clusters de antemão" | Embora K-Means exija que você especifique K, tipicamente você testa múltiplos valores e usa métricas (silhouette score) ou lógica de negócio para escolher o melhor número |
| "Clustering requer grandes datasets" | Clustering pode funcionar com datasets menores, embora a qualidade dos grupos descobertos melhore com mais dados. Até mesmo algumas centenas de pontos podem formar clusters significativos |
| "Não supervisionado significa sem envolvimento humano" | Não supervisionado significa sem rótulos nos dados. Humanos ainda escolhem features, definem parâmetros (como K), interpretam resultados e validam que os clusters são significativos |
Verificação de Conhecimento
1. Uma equipe de marketing quer agrupar seus clientes em segmentos com base em comportamento de compra, mas não tem categorias predefinidas de clientes. Qual técnica de ML devem usar?
2. Qual é a diferença PRINCIPAL entre clustering e classificação?
3. Em K-Means clustering, o que "K" representa?
4. Qual das seguintes NÃO é um cenário de clustering?
5. Um algoritmo de clustering agrupa dados com base em similaridade. Quem determina o que os grupos descobertos SIGNIFICAM ou representam?