Pular para o conteúdo principal

Challenge 07: Clustering em Machine Learning

Tempo Estimado

20-30 min | Custo: Gratuito | Domínio: Machine Learning no Azure (15-20%)

Habilidades do exame abordadas

  • Identificar cenários de machine learning com clustering
  • Descrever como clustering difere de classificação
  • Entender conceitos de aprendizado não supervisionado
  • Identificar casos de uso apropriados para clustering

Visão Geral

Clustering é a técnica de machine learning usada para agrupar itens similares quando você não tem categorias predefinidas. Diferente da classificação (onde você conhece as categorias antecipadamente — spam/não-spam), o clustering descobre agrupamentos naturais nos dados por conta própria.

Pense no clustering como organizar uma gaveta bagunçada. Você despeja 100 itens e começa a agrupar coisas que parecem similares: canetas ficam juntas, pilhas ficam juntas, cabos ficam juntos. Ninguém disse essas categorias antecipadamente — você as descobriu observando similaridades. Isso é clustering.

A distinção crítica: classificação é aprendizado supervisionado (você fornece exemplos rotulados), enquanto clustering é aprendizado não supervisionado (nenhum rótulo necessário). Clustering encontra padrões e agrupamentos que você talvez não soubesse que existiam.

Explorar

Tarefa 1: Classificação vs Clustering

Entender a diferença é um dos conceitos mais cobrados:

AspectoClassificaçãoClustering
Tipo de aprendizadoSupervisionadoNão supervisionado
Rótulos necessários?Sim — dados de treinamento têm categorias conhecidasNão — nenhum rótulo necessário
CategoriasPredefinidas (você especifica)Descobertas (o algoritmo encontra)
ObjetivoAtribuir itens a grupos CONHECIDOSDescobrir grupos DESCONHECIDOS
Exemplo"Este e-mail é spam" (rótulo conhecido)"Estes clientes se comportam de forma similar" (grupos descobertos)

Tarefa 2: Identificar cenários de clustering

CenárioPor que é clustering
Segmentação de clientesAgrupar clientes por comportamento de compra para descobrir segmentos que você não sabia que existiam
Agrupamento de documentosOrganizar artigos por tópicos sem categorias predefinidas
Detecção de anomaliasItens que não se encaixam em nenhum cluster podem ser outliers
Análise de expressão gênicaAgrupar genes com padrões de expressão similares
Compressão de imagemAgrupar cores similares para reduzir o número de cores únicas

NÃO é clustering (estes são classificação):

  • Classificar e-mails em spam/não-spam (rótulos são conhecidos)
  • Diagnosticar uma doença como Tipo A, B ou C (categorias predefinidas por médicos)
  • Atribuir notas a redações de alunos como A/B/C/D/F (notas são predeterminadas)

Tarefa 3: Entender K-Means clustering

K-Means é o algoritmo de clustering mais comum e o referenciado no exame:

  1. Escolha K — decida quantos clusters você quer (ex: K=3 para 3 grupos)
  2. Inicialize — posicione K pontos centrais aleatórios (centroides)
  3. Atribua — cada ponto de dados se junta ao cluster do centroide mais próximo
  4. Atualize — mova cada centroide para o centro de seus pontos atribuídos
  5. Repita — continue atribuindo e atualizando até os clusters se estabilizarem

Decisões-chave:

  • Quantos clusters (K)? — Não há resposta perfeita. Você tenta diferentes valores e avalia qual faz mais sentido para o negócio
  • Quais features usar? — As features que você inclui determinam o que "similar" significa

Tarefa 4: Clustering no Azure Machine Learning

No Azure ML, você pode construir modelos de clustering usando:

  1. Azure ML Designer — pipeline de clustering drag-and-drop

    • Use o módulo "K-Means Clustering"
    • Conecte a um dataset (nenhuma coluna de label necessária!)
    • Configure o número de clusters
    • Avalie resultados com métricas como silhouette score
  2. Métricas-chave para clustering:

    • Silhouette score: Mede quão similares os itens são ao seu próprio cluster vs. outros clusters (-1 a 1, maior é melhor)
    • Inércia: Soma das distâncias dos pontos até o centro de seu cluster (menor é melhor)
Estratégia para o exame

O gatilho do exame para clustering: "Sem rótulos" ou "descobrir grupos" ou "segmentar clientes". Se o cenário diz "não sabemos as categorias ainda" ou "encontrar agrupamentos naturais" → clustering. Se as categorias já são conhecidas → classificação.

Conceitos-Chave

ConceitoDefinição
ClusteringTécnica de ML não supervisionada que agrupa pontos de dados similares
Aprendizado não supervisionadoAbordagem de ML que encontra padrões sem dados de treinamento rotulados
Aprendizado supervisionadoAbordagem de ML que usa dados de treinamento rotulados (classificação, regressão)
K-MeansAlgoritmo de clustering popular que divide dados em K grupos baseado na distância aos centroides
CentroideO ponto central de um cluster
K (número de clusters)Um parâmetro que você escolhe — quantos grupos o algoritmo deve criar
Silhouette scoreMétrica que mede quão bem separados os clusters estão (-1 a 1)
Segmentação de clientesCaso de uso comum: agrupar clientes por comportamento para descobrir segmentos de mercado

Conceitos Errôneos Comuns

Conceito errôneoRealidade
"Clustering e classificação são a mesma coisa"Classificação atribui itens a categorias CONHECIDAS usando dados rotulados. Clustering DESCOBRE grupos desconhecidos sem rótulos. A presença ou ausência de rótulos predefinidos é a diferença-chave
"Clustering diz o que cada grupo significa"Clustering encontra grupos de itens similares, mas interpretar o que cada grupo representa é uma tarefa humana. O algoritmo diz "esses itens são similares" — você decide o significado
"Você deve saber o número de clusters de antemão"Embora K-Means exija que você especifique K, tipicamente você testa múltiplos valores e usa métricas (silhouette score) ou lógica de negócio para escolher o melhor número
"Clustering requer grandes datasets"Clustering pode funcionar com datasets menores, embora a qualidade dos grupos descobertos melhore com mais dados. Até mesmo algumas centenas de pontos podem formar clusters significativos
"Não supervisionado significa sem envolvimento humano"Não supervisionado significa sem rótulos nos dados. Humanos ainda escolhem features, definem parâmetros (como K), interpretam resultados e validam que os clusters são significativos

Verificação de Conhecimento

1. Uma equipe de marketing quer agrupar seus clientes em segmentos com base em comportamento de compra, mas não tem categorias predefinidas de clientes. Qual técnica de ML devem usar?

2. Qual é a diferença PRINCIPAL entre clustering e classificação?

3. Em K-Means clustering, o que "K" representa?

4. Qual das seguintes NÃO é um cenário de clustering?

5. Um algoritmo de clustering agrupa dados com base em similaridade. Quem determina o que os grupos descobertos SIGNIFICAM ou representam?

Saiba Mais