Pular para o conteúdo principal

Desafio 16: Reconhecimento e Síntese de Fala

Tempo Estimado

20-30 min | Custo: Gratuito | Domínio: Processamento de Linguagem Natural (15-20%)

Habilidades do exame abordadas

  • Identificar recursos e usos para reconhecimento de fala
  • Identificar recursos e usos para síntese de fala
  • Identificar capacidades do serviço Azure AI Speech

Visão geral

Reconhecimento de fala (fala para texto) converte áudio falado em texto escrito. Isso potencializa aplicações como transcrição de reuniões, assistentes de voz, legendas e comandos de voz. O Azure AI Speech suporta transcrição em tempo real (processando áudio conforme é transmitido) e transcrição em lote (processando arquivos de áudio pré-gravados). Reconhece padrões naturais de fala incluindo hesitações, palavras de preenchimento e diferentes estilos de fala.

Síntese de fala (texto para fala) converte texto escrito em áudio falado com som natural. Vozes neurais modernas de texto para fala soam notavelmente humanas, com entonação, ênfase e ritmo naturais. O Azure AI Speech oferece mais de 500 vozes neurais em 140+ idiomas e variantes. Casos de uso incluem assistentes virtuais, narração de audiolivros, recursos de acessibilidade para usuários com deficiência visual e sistemas telefônicos automatizados.

Ambas as capacidades fazem parte do serviço Azure AI Speech, que também inclui tradução de fala (tradução em tempo real de áudio falado) e reconhecimento de locutor (identificando quem está falando). Juntas, essas capacidades permitem interação humano-computador natural baseada em voz.

Explorar

Tarefa 1: Entender as capacidades de fala para texto

Fala para texto converte áudio em texto. Revise as principais variações:

RecursoDescriçãoCaso de Uso
Transcrição em tempo realConverte fala em texto conforme é faladaLegendas ao vivo, comandos de voz
Transcrição em loteProcessa arquivos de áudio pré-gravadosGravações de reuniões, logs de call center
Custom SpeechTreina modelos para vocabulário/sotaques específicosTerminologia médica, nomes de produtos
Transcrição de conversaçãoReconhecimento multi-locutorNotas de reunião com rótulos de locutor

Capacidades principais:

  • Pontuação e capitalização automáticas
  • Opções de filtragem de profanidade
  • Timestamps no nível da palavra
  • Diarização de locutor (identificando diferentes locutores)
  • Suporte para 100+ idiomas e dialetos

Tarefa 2: Explore o Azure AI Speech Studio

Navegue para: speech.microsoft.com

  1. Explore a interface do Speech Studio
  2. Veja os demos disponíveis:
    • Real-time speech-to-text — Tente falar ou faça upload de áudio
    • Text-to-speech — Insira texto e ouça-o falado
    • Pronunciation assessment — Avalie a qualidade da pronúncia
  3. Em Text to Speech, explore:
    • Diferentes opções de voz (vozes neurais)
    • Diferentes idiomas e variantes regionais
    • Estilos de voz (alegre, triste, irritado, etc. para algumas vozes)

Tarefa 3: Entender recursos de texto para fala

Texto para fala (TTS) converte texto em áudio com som natural. Revise as opções:

RecursoDescrição
Vozes neuraisVozes geradas por IA com entonação natural (500+ disponíveis)
Controle SSMLSpeech Synthesis Markup Language para ajuste fino de pronúncia, velocidade, tom
Estilos de vozVariações emocionais (alegre, empático, irritado) para vozes selecionadas
Custom Neural VoiceCrie uma voz de marca única a partir de áudio de treinamento
Opções de formato de áudioWAV, MP3, OGG e outros formatos

Exemplo de SSML — controlando a saída de fala:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-JennyNeural">
<prosody rate="slow" pitch="low">
Welcome to Azure AI Speech services.
</prosody>
</voice>
</speak>

Tarefa 4: Compare processamento em tempo real vs lote

AspectoTempo realLote
EntradaÁudio em streaming (microfone)Arquivos de áudio (WAV, MP3, etc.)
LatênciaResultados imediatosMinutos a horas
Melhor paraLegendas ao vivo, assistentes de vozProcessamento de gravações, arquivos
DuraçãoContínuo ou expressões curtasAté centenas de horas
SaídaResultados de texto em streamingArquivos JSON/texto com timestamps

Sua tarefa: Considere estes cenários e decida qual modo se adequa:

  1. Um médico ditando notas do paciente durante uma consulta → Tempo real
  2. Uma empresa processando 1.000 chamadas gravadas de atendimento ao cliente → Lote
  3. Adicionar legendas a um webinar ao vivo → Tempo real
  4. Transcrever uma biblioteca de episódios de podcast → Lote
Alternativa via Azure CLI
# Criar um recurso Azure AI Speech (nível Free)
az cognitiveservices account create \
--name my-speech-resource \
--resource-group myResourceGroup \
--kind SpeechServices \
--sku F0 \
--location eastus

# Listar chaves do recurso de fala
az cognitiveservices account keys list \
--name my-speech-resource \
--resource-group myResourceGroup

Conceitos-Chave

ConceitoDefinição
Fala para texto (STT)Converte áudio falado em texto escrito (também chamado reconhecimento de fala)
Texto para fala (TTS)Converte texto escrito em áudio falado com som natural (também chamado síntese de fala)
Voz neuralVoz gerada por IA que usa redes neurais profundas para fala com som natural
SSMLSpeech Synthesis Markup Language — formato baseado em XML para controlar a saída de fala
Diarização de locutorIdentificar e rotular diferentes locutores em uma gravação de áudio
Custom SpeechTreinar um modelo de reconhecimento de fala em vocabulário ou condições acústicas específicas de domínio

Equívocos Comuns

EquívocoRealidade
Fala para texto requer silêncio/condições de estúdioModelos modernos lidam bem com ruído de fundo, sotaques e padrões naturais de fala
Texto para fala sempre soa robóticoVozes neurais são quase indistinguíveis de fala humana em muitos casos
Você precisa de um modelo personalizado para transcrição básicaOs modelos pré-construídos funcionam bem para fala geral; modelos personalizados são para vocabulário especializado
Serviços de fala só funcionam em inglêsAzure AI Speech suporta 100+ idiomas para STT e 140+ idiomas para TTS
Transcrição em tempo real é sempre melhor que loteLote é melhor para grandes volumes de áudio pré-gravado e fornece metadados mais ricos

Verificação de Conhecimento

1. Um call center quer transcrever milhares de chamadas gravadas de clientes para analisá-las posteriormente. Qual capacidade de fala devem usar?

2. Que tecnologia faz com que vozes modernas de texto para fala soem naturais e humanas?

3. Qual recurso de fala para texto identifica diferentes locutores em uma conversação?

4. Um hospital precisa de reconhecimento de fala que transcreva com precisão terminologia médica como nomes de medicamentos e procedimentos. O que devem usar?

5. Para que é usado o SSML no Azure AI Speech?

Saiba Mais