•blog.google•
5 visualizações
Google atualiza modelos de áudio Gemini, adiciona tradução de fala ao vivo ao app Google Translate
Google anunciou atualizações nos modelos de áudio Gemini 1.5 Pro e Gemini 1.5 Flash, que agora entendem áudio nativamente como texto e imagens, disponíveis no app Gemini, Google Workspace e API Gemini. Gemini Live entende tom, inflexão, ruído de fundo, múltiplos falantes e sons como risadas ou música. Disponível hoje para assinantes Gemini Advanced em Android e iOS. No app e Workspace, analisa áudios de reuniões, memos e músicas. API suporta uploads, multimodal e streaming em preview para 1.5 Pro e Flash.