Pular para o conteúdo principal

Challenge 08: Deep Learning e Transformers

Tempo Estimado

25-35 min | Custo: Gratuito | Domínio: Machine Learning no Azure (15-20%)

Habilidades do exame abordadas

  • Identificar características de técnicas de deep learning
  • Descrever o que são redes neurais e como elas aprendem
  • Identificar características da arquitetura de modelo Transformer
  • Entender como Transformers se relacionam com IA moderna (GPT, BERT)

Visão Geral

Deep learning é um subconjunto de machine learning que usa redes neurais com muitas camadas para aprender padrões complexos. Enquanto ML tradicional pode ter dificuldade com imagens brutas ou texto longo, deep learning se destaca porque cada camada extrai features cada vez mais abstratas — de pixels a bordas, de bordas a formas, de formas a objetos.

Pense no deep learning como uma equipe de analistas trabalhando em camadas. O primeiro membro da equipe olha para detalhes minúsculos (cores de pixels), o próximo combina esses em padrões (bordas e texturas), o seguinte reconhece formas (círculos, retângulos), e o final identifica objetos ("isso é um gato!"). Cada camada se baseia no trabalho da anterior.

Transformers são uma arquitetura revolucionária de deep learning que alimenta a IA moderna como GPT-4, BERT e DALL-E. Sua inovação-chave é o mecanismo de atenção — a capacidade de olhar para TODAS as partes da entrada simultaneamente e focar nas partes mais relevantes. Antes dos Transformers, a IA processava texto palavra por palavra. Transformers processam tudo de uma vez, entendendo o contexto muito melhor.

Explorar

Tarefa 1: Entender fundamentos de redes neurais

Uma rede neural é inspirada no cérebro humano:

ComponenteO que fazAnalogia
Camada de entradaRecebe dados brutos (pixels, números, texto)Seus olhos recebendo luz
Camadas ocultasProcessam e transformam dados através de operações matemáticasCérebro processando informações
Camada de saídaProduz a previsão finalSua decisão/conclusão
Neurônios (nós)Unidades individuais de processamento que aplicam pesos e funções de ativaçãoCélulas cerebrais
PesosNúmeros que determinam quão importante cada entrada éQuanta atenção você presta a cada sentido

Deep learning = redes neurais com MUITAS camadas ocultas (redes profundas). Mais camadas = capacidade de aprender padrões mais complexos.

Tarefa 2: Tipos de redes neurais

TipoMelhor paraComo funcionaExemplo
CNN (Rede Neural Convolucional)Imagens e vídeoEscaneia a entrada com filtros deslizantes para detectar padrõesClassificação de imagem, detecção de objetos
RNN (Rede Neural Recorrente)Dados sequenciaisProcessa entrada em ordem, lembrando etapas anterioresPrevisão de séries temporais (abordagem mais antiga)
TransformerTexto, linguagem e multi-modalProcessa TODA a entrada simultaneamente usando atençãoGPT-4, BERT, DALL-E

Tarefa 3: A arquitetura Transformer (simplificada)

A arquitetura Transformer introduzida em 2017 revolucionou a IA. Conceitos-chave:

  1. Mecanismo de auto-atenção: O modelo olha para TODAS as palavras em uma frase simultaneamente e determina quais palavras são mais importantes para entender cada outra palavra

    • Exemplo: Em "O banco perto do rio estava inundado", a atenção ajuda o modelo a entender que "banco" significa margem do rio (não banco financeiro) ao atender a "rio" e "inundado"
  2. Codificação posicional: Como Transformers processam tudo de uma vez (não sequencialmente), eles adicionam informação de posição para que o modelo saiba a ordem das palavras

  3. Estrutura Encoder-Decoder:

    • Encoder: Processa e entende a entrada (usado pelo BERT)
    • Decoder: Gera texto de saída token por token (usado pelo GPT)
    • Alguns modelos usam ambos (modelos de tradução)
  4. Tokens: Transformers trabalham com tokens (aproximadamente palavras ou partes de palavras), não caracteres

Tarefa 4: Como a IA moderna usa Transformers

ModeloArquiteturaO que faz
GPT-4Transformer só-decoderGera texto, responde perguntas, escreve código
BERTTransformer só-encoderEntende texto para classificação, extração de entidades
DALL-ETransformer + DifusãoGera imagens a partir de descrições de texto
WhisperTransformer Encoder-DecoderTranscreve fala para texto
GitHub Copilot (GPT-4)Transformer só-decoderGera e entende código

Insight principal para o exame: Você não precisa entender a matemática. Saiba que:

  • Transformers usam atenção para entender contexto
  • Eles processam entrada em paralelo (rápido)
  • Eles alimentam virtualmente toda IA generativa moderna
Estratégia para o exame

O exame testa entendimento conceitual, não detalhes matemáticos. Foque em:

  • Deep learning = muitas camadas de redes neurais
  • CNNs = melhor para imagens
  • Transformers = melhor para linguagem/texto, usam mecanismo de atenção
  • GPT = baseado em Transformer, gera texto

Conceitos-Chave

ConceitoDefinição
Deep learningMachine learning usando redes neurais com múltiplas camadas ocultas
Rede neuralSistema computacional inspirado no cérebro, com camadas de nós conectados
CNN (Rede Neural Convolucional)Rede neural especializada para processamento de imagem usando filtros convolucionais
TransformerArquitetura que processa toda entrada simultaneamente usando mecanismos de atenção
Mecanismo de atençãoPermite que o modelo foque nas partes mais relevantes da entrada para cada previsão
EncoderComponente do Transformer que processa e entende a entrada
DecoderComponente do Transformer que gera a saída
TokenA unidade básica de texto que Transformers processam (aproximadamente palavras ou partes de palavras)
GPTGenerative Pre-trained Transformer — modelo só-decoder para geração de texto
BERTBidirectional Encoder Representations from Transformers — para entendimento de texto

Conceitos Errôneos Comuns

Conceito errôneoRealidade
"Deep learning sempre requer milhões de pontos de dados"Embora deep learning se beneficie de grandes datasets, técnicas como transfer learning e fine-tuning permitem uso eficaz com datasets menores ao se basear em modelos pré-treinados
"Redes neurais funcionam como o cérebro humano"Redes neurais são vagamente inspiradas no cérebro mas são fundamentalmente diferentes. São funções matemáticas, não sistemas biológicos
"Mais camadas sempre significa melhor desempenho"Redes extremamente profundas podem sofrer de vanishing gradients e overfitting. O design da arquitetura importa mais que a profundidade bruta
"Transformers substituíram todos os outros tipos de redes neurais"CNNs ainda são usadas para muitas tarefas de visão computacional. A arquitetura certa depende do problema. Transformers se destacam em linguagem e são cada vez mais usados para visão também
"GPT entende linguagem como humanos"GPT prevê o próximo token mais provável baseado em padrões aprendidos dos dados de treinamento. Ele não "entende" no sentido humano — é correspondência de padrões muito sofisticada

Verificação de Conhecimento

1. O que torna uma rede neural "profunda" em deep learning?

2. Qual tipo de rede neural é mais comumente usado para tarefas de reconhecimento de imagem?

3. Qual é a inovação-chave da arquitetura Transformer que alimenta modelos como GPT-4?

4. GPT (Generative Pre-trained Transformer) usa principalmente qual parte da arquitetura Transformer?

5. No contexto de Transformers, o que é um "token"?

Saiba Mais