Challenge 07: Clustering em Machine Learning

Tempo Estimado

20-30 min | Custo: Gratuito | Domínio: Machine Learning no Azure (15-20%)

Habilidades do exame abordadas

Identificar cenários de machine learning com clustering
Descrever como clustering difere de classificação
Entender conceitos de aprendizado não supervisionado
Identificar casos de uso apropriados para clustering

Visão Geral

Clustering é a técnica de machine learning usada para agrupar itens similares quando você não tem categorias predefinidas. Diferente da classificação (onde você conhece as categorias antecipadamente — spam/não-spam), o clustering descobre agrupamentos naturais nos dados por conta própria.

Pense no clustering como organizar uma gaveta bagunçada. Você despeja 100 itens e começa a agrupar coisas que parecem similares: canetas ficam juntas, pilhas ficam juntas, cabos ficam juntos. Ninguém disse essas categorias antecipadamente — você as descobriu observando similaridades. Isso é clustering.

A distinção crítica: classificação é aprendizado supervisionado (você fornece exemplos rotulados), enquanto clustering é aprendizado não supervisionado (nenhum rótulo necessário). Clustering encontra padrões e agrupamentos que você talvez não soubesse que existiam.

Explorar

Tarefa 1: Classificação vs Clustering

Entender a diferença é um dos conceitos mais cobrados:

Aspecto	Classificação	Clustering
Tipo de aprendizado	Supervisionado	Não supervisionado
Rótulos necessários?	Sim — dados de treinamento têm categorias conhecidas	Não — nenhum rótulo necessário
Categorias	Predefinidas (você especifica)	Descobertas (o algoritmo encontra)
Objetivo	Atribuir itens a grupos CONHECIDOS	Descobrir grupos DESCONHECIDOS
Exemplo	"Este e-mail é spam" (rótulo conhecido)	"Estes clientes se comportam de forma similar" (grupos descobertos)

Tarefa 2: Identificar cenários de clustering

Cenário	Por que é clustering
Segmentação de clientes	Agrupar clientes por comportamento de compra para descobrir segmentos que você não sabia que existiam
Agrupamento de documentos	Organizar artigos por tópicos sem categorias predefinidas
Detecção de anomalias	Itens que não se encaixam em nenhum cluster podem ser outliers
Análise de expressão gênica	Agrupar genes com padrões de expressão similares
Compressão de imagem	Agrupar cores similares para reduzir o número de cores únicas

NÃO é clustering (estes são classificação):

Classificar e-mails em spam/não-spam (rótulos são conhecidos)
Diagnosticar uma doença como Tipo A, B ou C (categorias predefinidas por médicos)
Atribuir notas a redações de alunos como A/B/C/D/F (notas são predeterminadas)

Tarefa 3: Entender K-Means clustering

K-Means é o algoritmo de clustering mais comum e o referenciado no exame:

Escolha K — decida quantos clusters você quer (ex: K=3 para 3 grupos)
Inicialize — posicione K pontos centrais aleatórios (centroides)
Atribua — cada ponto de dados se junta ao cluster do centroide mais próximo
Atualize — mova cada centroide para o centro de seus pontos atribuídos
Repita — continue atribuindo e atualizando até os clusters se estabilizarem

Decisões-chave:

Quantos clusters (K)? — Não há resposta perfeita. Você tenta diferentes valores e avalia qual faz mais sentido para o negócio
Quais features usar? — As features que você inclui determinam o que "similar" significa

Tarefa 4: Clustering no Azure Machine Learning

No Azure ML, você pode construir modelos de clustering usando:

Azure ML Designer — pipeline de clustering drag-and-drop
- Use o módulo "K-Means Clustering"
- Conecte a um dataset (nenhuma coluna de label necessária!)
- Configure o número de clusters
- Avalie resultados com métricas como silhouette score
Métricas-chave para clustering:
- Silhouette score: Mede quão similares os itens são ao seu próprio cluster vs. outros clusters (-1 a 1, maior é melhor)
- Inércia: Soma das distâncias dos pontos até o centro de seu cluster (menor é melhor)

Estratégia para o exame

O gatilho do exame para clustering: "Sem rótulos" ou "descobrir grupos" ou "segmentar clientes". Se o cenário diz "não sabemos as categorias ainda" ou "encontrar agrupamentos naturais" → clustering. Se as categorias já são conhecidas → classificação.

Conceitos-Chave

Conceito	Definição
Clustering	Técnica de ML não supervisionada que agrupa pontos de dados similares
Aprendizado não supervisionado	Abordagem de ML que encontra padrões sem dados de treinamento rotulados
Aprendizado supervisionado	Abordagem de ML que usa dados de treinamento rotulados (classificação, regressão)
K-Means	Algoritmo de clustering popular que divide dados em K grupos baseado na distância aos centroides
Centroide	O ponto central de um cluster
K (número de clusters)	Um parâmetro que você escolhe — quantos grupos o algoritmo deve criar
Silhouette score	Métrica que mede quão bem separados os clusters estão (-1 a 1)
Segmentação de clientes	Caso de uso comum: agrupar clientes por comportamento para descobrir segmentos de mercado

Conceitos Errôneos Comuns

Conceito errôneo	Realidade
"Clustering e classificação são a mesma coisa"	Classificação atribui itens a categorias CONHECIDAS usando dados rotulados. Clustering DESCOBRE grupos desconhecidos sem rótulos. A presença ou ausência de rótulos predefinidos é a diferença-chave
"Clustering diz o que cada grupo significa"	Clustering encontra grupos de itens similares, mas interpretar o que cada grupo representa é uma tarefa humana. O algoritmo diz "esses itens são similares" — você decide o significado
"Você deve saber o número de clusters de antemão"	Embora K-Means exija que você especifique K, tipicamente você testa múltiplos valores e usa métricas (silhouette score) ou lógica de negócio para escolher o melhor número
"Clustering requer grandes datasets"	Clustering pode funcionar com datasets menores, embora a qualidade dos grupos descobertos melhore com mais dados. Até mesmo algumas centenas de pontos podem formar clusters significativos
"Não supervisionado significa sem envolvimento humano"	Não supervisionado significa sem rótulos nos dados. Humanos ainda escolhem features, definem parâmetros (como K), interpretam resultados e validam que os clusters são significativos

Verificação de Conhecimento

1. Uma equipe de marketing quer agrupar seus clientes em segmentos com base em comportamento de compra, mas não tem categorias predefinidas de clientes. Qual técnica de ML devem usar?

2. Qual é a diferença PRINCIPAL entre clustering e classificação?

3. Em K-Means clustering, o que "K" representa?

4. Qual das seguintes NÃO é um cenário de clustering?

5. Um algoritmo de clustering agrupa dados com base em similaridade. Quem determina o que os grupos descobertos SIGNIFICAM ou representam?

Habilidades do exame abordadas​

Visão Geral​

Explorar​

Tarefa 1: Classificação vs Clustering​

Tarefa 2: Identificar cenários de clustering​

Tarefa 3: Entender K-Means clustering​

Tarefa 4: Clustering no Azure Machine Learning​

Conceitos-Chave​

Conceitos Errôneos Comuns​

Verificação de Conhecimento​

Saiba Mais​