Pular para o conteúdo principal

Desafio 18: Azure AI Language e Speech Services

Tempo Estimado

25-30 min | Custo: Gratuito | Domínio: Processamento de Linguagem Natural (15-20%)

Habilidades do exame abordadas

  • Identificar capacidades do serviço Azure AI Language
  • Identificar capacidades do serviço Azure AI Speech
  • Descrever recursos e usos para compreensão de linguagem conversacional (CLU)
  • Descrever recursos e usos para respostas a perguntas

Visão geral

O Azure fornece dois serviços primários para processamento de linguagem natural: Azure AI Language para NLP baseado em texto e Azure AI Speech para processamento baseado em áudio. Entender qual serviço lida com qual capacidade — e quando combiná-los — é essencial para o exame AI-900.

Azure AI Language é a potência de análise de texto. Além das capacidades pré-construídas (sentimento, entidades, frases-chave, detecção de idioma), oferece capacidades personalizadas como Compreensão de Linguagem Conversacional (CLU) para construir modelos de reconhecimento de intenção, respostas a perguntas personalizadas para bots estilo FAQ, sumarização de texto, detecção de PII e classificação de texto personalizada. Pense nele como "tudo que você pode fazer com texto escrito."

Azure AI Speech lida com a palavra falada. Além de fala para texto e texto para fala básicos, fornece tradução de fala, reconhecimento de locutor (identificando quem está falando), reconhecimento de palavras-chave (palavras de ativação como "Hey Cortana") e avaliação de pronúncia. Pense nele como "tudo que você pode fazer com áudio/voz."

Explorar

Tarefa 1: Mapear as capacidades do Azure AI Language

O Azure AI Language fornece capacidades tanto pré-construídas (prontas para uso) quanto personalizadas (treináveis):

Capacidades pré-construídas (sem treinamento necessário):

CapacidadeO que faz
Análise de sentimentoDetermina sentimento positivo/negativo/neutro/misto
Reconhecimento de entidades nomeadasIdentifica pessoas, lugares, organizações, datas
Extração de frases-chaveExtrai os principais pontos do texto
Detecção de idiomaIdentifica em qual idioma o texto está escrito
Detecção de PIIEncontra informações pessoalmente identificáveis (CPFs, emails, telefones)
Sumarização de textoGera resumos concisos de documentos
Vinculação de entidadesConecta entidades a entradas da base de conhecimento da Wikipédia

Capacidades personalizadas (requerem dados de treinamento):

CapacidadeO que faz
Compreensão de Linguagem Conversacional (CLU)Reconhece intenções do usuário e extrai entidades de linguagem natural
Respostas a perguntas personalizadasConstrói bases de conhecimento estilo FAQ para bots de Q&A
Classificação de texto personalizadaClassifica texto em suas próprias categorias
Reconhecimento de entidades nomeadas personalizadoExtrai entidades específicas de domínio que você define

Tarefa 2: Entender a Compreensão de Linguagem Conversacional (CLU)

CLU (anteriormente LUIS) ajuda você a construir aplicações que entendem comandos de linguagem natural:

Conceitos-chave:

  • Enunciado (Utterance) — O que o usuário diz: "Reserve um voo para Paris na próxima sexta"
  • Intenção (Intent) — O que o usuário quer fazer: "BookFlight"
  • Entidade (Entity) — Detalhes importantes: "Paris" (destino), "próxima sexta" (data)

Projeto de exemplo:

EnunciadoIntençãoEntidades
"Ligue as luzes da sala"TurnOnDevice: luzes, Room: sala
"Ajuste a temperatura para 22 graus"SetTemperatureTemperature: 22
"Como está o tempo em São Paulo?"GetWeatherLocation: São Paulo
"Toque um pouco de jazz"PlayMusicGenre: jazz

Fluxo de treinamento:

  1. Defina intenções (o que os usuários querem fazer)
  2. Defina entidades (informações importantes a extrair)
  3. Adicione enunciados de exemplo (rotulados com intenções e entidades)
  4. Treine e teste o modelo
  5. Implante e integre com sua aplicação

Tarefa 3: Explore respostas a perguntas personalizadas

Respostas a perguntas personalizadas (anteriormente QnA Maker) cria bases de conhecimento a partir de conteúdo existente:

Fontes que pode importar:

  • Páginas web de FAQ
  • Documentos PDF
  • Documentos Word
  • Pares pergunta-resposta manuais

Como funciona:

  1. Importe conteúdo (páginas FAQ, documentos)
  2. O serviço extrai pares pergunta-resposta automaticamente
  3. Adicione pares Q&A personalizados e formulações alternativas
  4. Teste e refine respostas
  5. Implante como um endpoint REST para chatbots

Base de conhecimento de exemplo:

PerguntaResposta
Qual é o horário de funcionamento?Estamos abertos de segunda a sexta, das 9h às 17h.
Como redefinir minha senha?Vá à página de login, clique em "Esqueci a Senha" e siga as instruções do email.
Vocês oferecem frete grátis?Frete grátis disponível em pedidos acima de R$ 200.

Tarefa 4: Navegue entre Language Studio vs Speech Studio

Compare os dois studios lado a lado:

Azure AI Language Studio (language.cognitive.azure.com):

  • Classificar texto (sentimento, classificação personalizada)
  • Extrair informações (entidades, frases-chave, PII, sumarização)
  • Entender perguntas e linguagem conversacional (CLU, Q&A)

Azure AI Speech Studio (speech.microsoft.com):

  • Fala para texto (tempo real e lote)
  • Texto para fala (galeria de vozes, vozes personalizadas)
  • Tradução de fala
  • Reconhecimento de locutor
  • Avaliação de pronúncia
  • Reconhecimento de palavras-chave personalizadas

Guia de decisão — Qual serviço eu preciso?

Eu quero...Use
Analisar texto para sentimentoAzure AI Language
Transcrever gravações de áudioAzure AI Speech
Construir um chatbot que responda FAQsAzure AI Language (Question Answering)
Criar um assistente de vozAzure AI Speech + Azure AI Language
Detectar PII em documentosAzure AI Language
Adicionar uma palavra de ativação ("Hey Assistente")Azure AI Speech (Keyword Recognition)
Entender comandos do usuário em um app de casa inteligenteAzure AI Language (CLU)
Identificar quem está falando em uma gravaçãoAzure AI Speech (Speaker Recognition)
Alternativa via Azure CLI
# Listar capacidades do seu recurso Language
az cognitiveservices account show \
--name my-language-resource \
--resource-group myResourceGroup \
--query "{name:name, kind:kind, sku:sku.name, endpoint:properties.endpoint}"

Conceitos-Chave

ConceitoDefinição
Azure AI LanguageServiço para NLP baseado em texto: sentimento, NER, CLU, Q&A, sumarização, detecção de PII
Azure AI SpeechServiço para processamento baseado em áudio: STT, TTS, tradução de fala, reconhecimento de locutor
Compreensão de Linguagem Conversacional (CLU)Modelo personalizado que reconhece intenções e entidades em entrada de linguagem natural
IntençãoO que o usuário quer realizar (ex.: BookFlight, GetWeather)
Respostas a perguntas personalizadasServiço de base de conhecimento para construir experiências de Q&A estilo FAQ
Reconhecimento de locutorIdentificar ou verificar a identidade de uma pessoa com base em sua voz

Equívocos Comuns

EquívocoRealidade
Azure AI Language e Azure AI Speech são o mesmo serviçoSão serviços separados — Language lida com texto, Speech lida com áudio
CLU substitui todas as capacidades de NLPCLU é especificamente para entender intenções e entidades em entrada conversacional; outras capacidades (sentimento, NER) permanecem separadas
Respostas a perguntas requer programar um chatbot do zeroVocê pode importar conteúdo FAQ existente e o serviço cria pares Q&A automaticamente
Reconhecimento de locutor identifica o que alguém dizReconhecimento de locutor identifica QUEM está falando, não o que dizem — isso é fala para texto
Você precisa de recursos Azure separados para cada capacidade de NLPUm único recurso Azure AI Language fornece acesso a todas as capacidades de Language (sentimento, NER, CLU, etc.)

Verificação de Conhecimento

1. Uma empresa quer construir um app de casa inteligente que entenda comandos como "desligue as luzes da cozinha" e "ajuste o termostato para 22 graus." Qual capacidade devem usar?

2. Uma empresa tem um documento de FAQ de 50 páginas e quer criar um chatbot que responda perguntas de clientes a partir dele. Qual capacidade do Azure AI devem usar?

3. Qual capacidade faz parte do Azure AI Speech (NÃO do Azure AI Language)?

4. Na Compreensão de Linguagem Conversacional, o que é uma "intenção"?

5. Uma empresa quer detectar e redigir automaticamente CPFs e endereços de email de documentos de clientes. Qual capacidade do Azure AI Language devem usar?

Saiba Mais