Meta apresenta SAM Audio, modelo IA multimodal para separar sons com prompts - ai.meta.com

A Meta AI apresenta SAM: Audio, o primeiro modelo foundation para separação de fontes de áudio, em 15 de outubro de 2024. Ele separa sons individuais de misturas, como vocais de música ou fala de ruído, usando prompts de texto, áudio ou pontos, sem treinamento prévio em tipos específicos. Baseado no Segment Anything Model para visão, emprega Audio Spectrogram Transformer, treinado em mais de 1 milhão de horas de áudio de AudioSet, Freesound e datasets proprietários. Alcança SOTA em benchmarks: MUSIC-4 (14.5 dB), WHAM! (16.8 dB), LIBRI2MIX (19.2 dB). Open-source no GitHub e Hugging Face.