OpenAI Lança Modelos de Voz em Tempo Real para Raciocínio, Tradução e Transcrição

A OpenAI lançou dois novos modelos de áudio de ponta na API: gpt-4o-transcribe e gpt-4o-mini-transcribe. Eles estabelecem novos padrões de precisão, velocidade e custo-eficiência, superando os modelos Whisper em benchmarks como Common Voice e Fleurs. gpt-4o-transcribe alcança WER de 4.51 em ambos, com $0.20/hora input e $0.60/hora output. gpt-4o-mini-transcribe tem WER de 6.12, $0.05 input e $0.15 output. Suportam diarização de falantes, timestamps por palavra, identificação de idioma, tradução. Melhor robustez a ruído, sotaques, números e termos técnicos. Próximamente: compreensão de áudio em tempo real, suporte multilíngue e edição avançada.