Hugging Face17 de jun de 20262 min de leitura

Ai2 lança MolmoMotion, modelo que prevê movimentos 3D a partir

O novo modelo da Ai2 prevê trajetórias 3D de objetos em vídeos usando descrições textuais. Acompanhado de um dataset com 1,16 milhão de vídeos, ele supera métodos existentes e já mostra aplicações em robótica e geração de vídeo.

O Allen Institute for AI (Ai2) apresentou o MolmoMotion, um modelo de previsão de movimento 3D que, a partir de um quadro de vídeo, pontos 3D marcados em um objeto e instruções escritas, consegue prever para onde esses pontos se moverão nos segundos seguintes. O modelo alcançou desempenho substancialmente superior a métodos existentes de previsão de movimento, segundo a equipe.

Para treinar o MolmoMotion, os pesquisadores precisavam de dados que não existiam em escala suficiente: vídeos com trajetórias 3D de pontos ligados a objetos específicos e acompanhados de descrições de ação. Eles construíram então um pipeline automático que extrai essas trajetórias de vídeos da internet, gerando o MolmoMotion-1M — o maior conjunto de dados do tipo já montado, com 1,16 milhão de vídeos, 736 tipos de movimento e 5,6 mil objetos distintos. Junto com o modelo, também foi lançado o PointMotionBench, um benchmark validado por humanos com 2,7 mil clipes para medir a precisão da previsão de movimento 3D centrado em objetos.

O modelo usa como espinha dorsal o Molmo 2, o que lhe permite conectar instruções de linguagem natural a objetos e pontos em uma imagem. As trajetórias previstas podem ser usadas diretamente em aplicações como planejamento robótico e geração de vídeo controlada. Em testes de robótica simulada, uma política de controle baseada no MolmoMotion teve sucesso em 76,3% das tarefas de pick-and-place, contra 56% da mesma política usando apenas o Molmo 2. Em robôs reais, o modelo atingiu o mesmo erro de um baseline após apenas 2 mil passos de treinamento, contra 12 mil do baseline.

O MolmoMotion também mostrou capacidade de orientar a geração de vídeo: usado como guia para um modelo de imagem-para-vídeo, ele melhorou a qualidade do movimento em todas as cinco métricas relacionadas a movimento testadas, superando um modelo muito maior em quatro delas. Os pesos do modelo, o dataset e o benchmark foram liberados abertamente para a comunidade.

De onde veio esta notícia

Texto em português produzido com apoio de inteligência artificial a partir da publicação original de Hugging Face. Os fatos, números e nomes são os da fonte — se quiser conferir, o link abaixo leva ao original.

Ler a publicação original em Hugging Face