Desafio 16: Reconhecimento e Síntese de Fala
20-30 min | Custo: Gratuito | Domínio: Processamento de Linguagem Natural (15-20%)
Habilidades do exame abordadas
- Identificar recursos e usos para reconhecimento de fala
- Identificar recursos e usos para síntese de fala
- Identificar capacidades do serviço Azure AI Speech
Visão geral
Reconhecimento de fala (fala para texto) converte áudio falado em texto escrito. Isso potencializa aplicações como transcrição de reuniões, assistentes de voz, legendas e comandos de voz. O Azure AI Speech suporta transcrição em tempo real (processando áudio conforme é transmitido) e transcrição em lote (processando arquivos de áudio pré-gravados). Reconhece padrões naturais de fala incluindo hesitações, palavras de preenchimento e diferentes estilos de fala.
Síntese de fala (texto para fala) converte texto escrito em áudio falado com som natural. Vozes neurais modernas de texto para fala soam notavelmente humanas, com entonação, ênfase e ritmo naturais. O Azure AI Speech oferece mais de 500 vozes neurais em 140+ idiomas e variantes. Casos de uso incluem assistentes virtuais, narração de audiolivros, recursos de acessibilidade para usuários com deficiência visual e sistemas telefônicos automatizados.
Ambas as capacidades fazem parte do serviço Azure AI Speech, que também inclui tradução de fala (tradução em tempo real de áudio falado) e reconhecimento de locutor (identificando quem está falando). Juntas, essas capacidades permitem interação humano-computador natural baseada em voz.
Explorar
Tarefa 1: Entender as capacidades de fala para texto
Fala para texto converte áudio em texto. Revise as principais variações:
| Recurso | Descrição | Caso de Uso |
|---|---|---|
| Transcrição em tempo real | Converte fala em texto conforme é falada | Legendas ao vivo, comandos de voz |
| Transcrição em lote | Processa arquivos de áudio pré-gravados | Gravações de reuniões, logs de call center |
| Custom Speech | Treina modelos para vocabulário/sotaques específicos | Terminologia médica, nomes de produtos |
| Transcrição de conversação | Reconhecimento multi-locutor | Notas de reunião com rótulos de locutor |
Capacidades principais:
- Pontuação e capitalização automáticas
- Opções de filtragem de profanidade
- Timestamps no nível da palavra
- Diarização de locutor (identificando diferentes locutores)
- Suporte para 100+ idiomas e dialetos
Tarefa 2: Explore o Azure AI Speech Studio
Navegue para: speech.microsoft.com
- Explore a interface do Speech Studio
- Veja os demos disponíveis:
- Real-time speech-to-text — Tente falar ou faça upload de áudio
- Text-to-speech — Insira texto e ouça-o falado
- Pronunciation assessment — Avalie a qualidade da pronúncia
- Em Text to Speech, explore:
- Diferentes opções de voz (vozes neurais)
- Diferentes idiomas e variantes regionais
- Estilos de voz (alegre, triste, irritado, etc. para algumas vozes)
Tarefa 3: Entender recursos de texto para fala
Texto para fala (TTS) converte texto em áudio com som natural. Revise as opções:
| Recurso | Descrição |
|---|---|
| Vozes neurais | Vozes geradas por IA com entonação natural (500+ disponíveis) |
| Controle SSML | Speech Synthesis Markup Language para ajuste fino de pronúncia, velocidade, tom |
| Estilos de voz | Variações emocionais (alegre, empático, irritado) para vozes selecionadas |
| Custom Neural Voice | Crie uma voz de marca única a partir de áudio de treinamento |
| Opções de formato de áudio | WAV, MP3, OGG e outros formatos |
Exemplo de SSML — controlando a saída de fala:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-JennyNeural">
<prosody rate="slow" pitch="low">
Welcome to Azure AI Speech services.
</prosody>
</voice>
</speak>
Tarefa 4: Compare processamento em tempo real vs lote
| Aspecto | Tempo real | Lote |
|---|---|---|
| Entrada | Áudio em streaming (microfone) | Arquivos de áudio (WAV, MP3, etc.) |
| Latência | Resultados imediatos | Minutos a horas |
| Melhor para | Legendas ao vivo, assistentes de voz | Processamento de gravações, arquivos |
| Duração | Contínuo ou expressões curtas | Até centenas de horas |
| Saída | Resultados de texto em streaming | Arquivos JSON/texto com timestamps |
Sua tarefa: Considere estes cenários e decida qual modo se adequa:
- Um médico ditando notas do paciente durante uma consulta → Tempo real
- Uma empresa processando 1.000 chamadas gravadas de atendimento ao cliente → Lote
- Adicionar legendas a um webinar ao vivo → Tempo real
- Transcrever uma biblioteca de episódios de podcast → Lote
# Criar um recurso Azure AI Speech (nível Free)
az cognitiveservices account create \
--name my-speech-resource \
--resource-group myResourceGroup \
--kind SpeechServices \
--sku F0 \
--location eastus
# Listar chaves do recurso de fala
az cognitiveservices account keys list \
--name my-speech-resource \
--resource-group myResourceGroup
Conceitos-Chave
| Conceito | Definição |
|---|---|
| Fala para texto (STT) | Converte áudio falado em texto escrito (também chamado reconhecimento de fala) |
| Texto para fala (TTS) | Converte texto escrito em áudio falado com som natural (também chamado síntese de fala) |
| Voz neural | Voz gerada por IA que usa redes neurais profundas para fala com som natural |
| SSML | Speech Synthesis Markup Language — formato baseado em XML para controlar a saída de fala |
| Diarização de locutor | Identificar e rotular diferentes locutores em uma gravação de áudio |
| Custom Speech | Treinar um modelo de reconhecimento de fala em vocabulário ou condições acústicas específicas de domínio |
Equívocos Comuns
| Equívoco | Realidade |
|---|---|
| Fala para texto requer silêncio/condições de estúdio | Modelos modernos lidam bem com ruído de fundo, sotaques e padrões naturais de fala |
| Texto para fala sempre soa robótico | Vozes neurais são quase indistinguíveis de fala humana em muitos casos |
| Você precisa de um modelo personalizado para transcrição básica | Os modelos pré-construídos funcionam bem para fala geral; modelos personalizados são para vocabulário especializado |
| Serviços de fala só funcionam em inglês | Azure AI Speech suporta 100+ idiomas para STT e 140+ idiomas para TTS |
| Transcrição em tempo real é sempre melhor que lote | Lote é melhor para grandes volumes de áudio pré-gravado e fornece metadados mais ricos |
Verificação de Conhecimento
1. Um call center quer transcrever milhares de chamadas gravadas de clientes para analisá-las posteriormente. Qual capacidade de fala devem usar?
2. Que tecnologia faz com que vozes modernas de texto para fala soem naturais e humanas?
3. Qual recurso de fala para texto identifica diferentes locutores em uma conversação?
4. Um hospital precisa de reconhecimento de fala que transcreva com precisão terminologia médica como nomes de medicamentos e procedimentos. O que devem usar?
5. Para que é usado o SSML no Azure AI Speech?