•theverge.com•
0 visualizações
The Atlantic cria banco de dados de músicas usadas em
Milhões de faixas estão disponíveis em datasets abertos, muitas vezes sem licença adequada. Agora é possível pesquisar quais obras alimentam modelos de IA.

O The Atlantic lançou um banco de dados interativo que permite ao público pesquisar músicas utilizadas para treinar inteligências artificiais. O repórter Alex Reisner identificou quatro datasets de áudio, sendo dois com 12 milhões e 9 milhões de faixas cada, e outros dois com mais de 100 mil músicas cada. Segundo a reportagem, os conjuntos foram baixados milhares de vezes, e empresas como Google e Stability AI confirmaram seu uso em artigos científicos.
Os datasets incluem faixas de artistas como Lady Gaga, Radiohead, Wu-Tang Clan e Bruce Springsteen, além de material de plataformas como YouTube e Spotify. Embora os arquivos estejam tecnicamente disponíveis na internet, seu uso para treinamento de IA muitas vezes viola termos de serviço. Reisner explica que ferramentas automatizadas são usadas para baixar o áudio, ignorando logins e anúncios, o que pode infringir direitos autorais.
Algumas fontes, como o Free Music Archive, permitem streaming gratuito para uso pessoal, mas exigem licenciamento para fins comerciais. A iniciativa faz parte do projeto AI Watchdog do The Atlantic, que reúne dados sobre músicas, livros e outras mídias empregadas no treinamento de modelos de IA. A ferramenta busca dar transparência a um processo muitas vezes opaco, permitindo que artistas e o público verifiquem quais obras estão sendo usadas sem autorização explícita.
A medida levanta questões sobre direitos autorais na era da IA generativa. Com o crescimento de modelos como o MusicLM do Google e o Stable Audio, a origem e a legalidade dos dados de treinamento tornam-se cada vez mais relevantes. A base de dados do The Atlantic pode servir como instrumento para que criadores e advogados identifiquem possíveis infrações e pressionem por regulamentações mais claras.