Google lança Gemini 3.1 Flash TTS com tags de áudio para fala de IA mais expressiva

O Google anunciou o Gemini 3.1 Flash TTS, modelo experimental de texto-para-fala baseado na arquitetura Gemini 3.1 Flash. Entrega fala de alta qualidade com baixa latência, ideal para agentes de IA conversacionais. É o TTS mais eficiente, com mais de 200x velocidade real em TPU único. Suporta 24 idiomas, mais de 30 vozes e customizações: taxa de fala (0.25x a 4x), pitch (±20%), volume (±20%) e efeitos como risadas, suspiros. Multimodal, aceita texto, áudio, imagens e vídeo. Latência do primeiro chunk abaixo de 200ms. Disponível no Google AI Studio e Vertex AI.