Pular para o conteúdo principal

Challenge 05: Regressão em Machine Learning

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Machine Learning no Azure (15-20%)

Habilidades do exame abordadas

  • Identificar cenários de machine learning com regressão
  • Descrever como dados de treinamento são usados em regressão
  • Identificar features e labels em um dataset
  • Entender métricas de avaliação de modelo para regressão

Visão Geral

Regressão é a técnica de machine learning usada para prever um valor numérico. Sempre que a resposta para sua pergunta é um número — um preço, uma temperatura, uma duração, uma quantidade — você está diante de um problema de regressão.

Pense na regressão como traçar a melhor linha de ajuste através de um gráfico de dispersão de pontos de dados. Se você plotar o tamanho de casas em um eixo e seus preços no outro, a regressão encontra o padrão (linha ou curva) que permite prever o preço de uma nova casa com base em seu tamanho. O modelo aprende: "para cada 10 metros quadrados a mais, o preço aumenta em aproximadamente R$X."

O vocabulário-chave: features são os dados de entrada (metragem, número de quartos, localização), e a label é o que você está prevendo (o preço). Dados de treinamento são exemplos históricos onde tanto as features QUANTO a label são conhecidas — o modelo aprende a relação entre elas.

Explorar

Tarefa 1: Entender a terminologia de regressão

TermoDefiniçãoExemplo (prevendo preço de casa)
FeaturesVariáveis de entrada usadas para previsãoMetragem, quartos, CEP, ano de construção
LabelO valor sendo previsto (saída)Preço de venda (R$)
Dados de treinamentoExemplos históricos com features E labels conhecidasVendas anteriores de casas com todos os detalhes
ModeloA relação matemática aprendida dos dados de treinamento"Preço = R$5.000 × m² + R$50.000 × quartos + ..."
PrevisãoA saída do modelo para novos dados não vistosPreço estimado para uma casa ainda não vendida

Tarefa 2: Identificar cenários de regressão

Quais destes são problemas de regressão? (Resposta: todos os que preveem um NÚMERO)

CenárioRegressão?Por quê
Prever a temperatura máxima de amanhã✅ SimSaída é um valor numérico (graus)
Prever a nota de um aluno na prova✅ SimSaída é um número (0-100)
Determinar se um e-mail é spam❌ NãoSaída é uma categoria (spam/não-spam) — isso é classificação
Prever quanto tempo uma entrega vai demorar✅ SimSaída é um número (minutos/horas)
Classificar fotos como "gato" ou "cachorro"❌ NãoSaída é uma categoria — classificação
Estimar a eficiência de combustível de um carro (km/l)✅ SimSaída é um valor numérico (quilômetros por litro)

Tarefa 3: Explorar amostra de regressão no Azure ML Designer

  1. Visite o Azure Machine Learning Studio
  2. Se você não tem um workspace, revise este pipeline de exemplo conceitualmente:
    • Dataset: Dados de preço de automóveis (features: marca, estilo de carroceria, tamanho do motor, potência, etc.)
    • Algoritmo: Regressão Linear
    • Objetivo: Prever o preço de um carro com base em suas features
  3. O Designer fornece uma experiência drag-and-drop para construir pipelines de ML sem código
  4. Pipelines de exemplo demonstram regressão com datasets reais

Tarefa 4: Entender métricas de avaliação de regressão

Após treinar um modelo de regressão, você avalia quão boas são suas previsões:

MétricaO que medeValor bom
MAE (Erro Médio Absoluto)Diferença média entre valores previstos e reaisMenor é melhor
RMSE (Raiz do Erro Quadrático Médio)Erro médio, penalizando erros grandes mais severamenteMenor é melhor
R² (R-quadrado)Quanto da variação o modelo explicaMais próximo de 1,0 é melhor

Exemplo: Se um modelo prevê preços de casas com MAE de R$15.000, significa que, em média, as previsões erram em R$15.000 do preço real.

Estratégia para o exame

O exame testa se você consegue IDENTIFICAR cenários de regressão, não se consegue calcular métricas. A pergunta-chave: "A saída é um número?" Se sim → regressão. Se é uma categoria → classificação.

Conceitos-Chave

ConceitoDefinição
RegressãoTécnica de ML que prevê um valor numérico contínuo
FeaturesVariáveis de entrada (preditores) usadas pelo modelo
LabelO valor-alvo sendo previsto
Dados de treinamentoDados históricos com features e labels conhecidas usados para treinar o modelo
Regressão linearRegressão mais simples — encontra uma relação em linha reta entre features e label
Erro Médio Absoluto (MAE)Magnitude média dos erros nas previsões
R-quadrado (R²)Proporção da variância na label explicada pelo modelo (0 a 1)
OverfittingModelo memoriza dados de treinamento em vez de aprender padrões gerais

Conceitos Errôneos Comuns

Conceito errôneoRealidade
"Regressão significa que os dados diminuem (regridem)"Em ML, regressão significa prever um valor numérico. O termo vem da estatística ("regressão à média") — não tem nada a ver com tendências de queda
"Regressão só pode prever valores futuros"Regressão prevê qualquer valor numérico — passado, presente ou futuro. Prever a idade de um fóssil ou o preço de uma pintura são ambos regressão
"Mais features sempre fazem um modelo melhor"Features irrelevantes adicionam ruído e podem piorar as previsões. Seleção de features — escolher as entradas CERTAS — é crucial
"Regressão linear só pode modelar linhas retas"Regressão linear modela relações em linha reta. Mas o Azure ML oferece muitos algoritmos de regressão (árvores de decisão, redes neurais) que podem modelar curvas complexas
"Um R² alto sempre significa que o modelo é bom"Um R² muito alto nos dados de treinamento pode indicar overfitting — o modelo memorizou os dados de treinamento mas não generalizará para novos dados

Verificação de Conhecimento

1. Uma empresa quer prever quantas unidades de um produto venderá no próximo mês com base em dados históricos de vendas, investimento em publicidade e tendências sazonais. Que tipo de problema de ML é esse?

2. Em um dataset usado para prever preços de casas, qual dos seguintes seria a LABEL?

3. Um modelo de regressão tem um valor de R-quadrado de 0,92. O que isso indica?

4. Qual cenário NÃO é um problema de regressão?

5. Qual é o papel dos dados de treinamento em um modelo de regressão?

Saiba Mais