Microsoft revela TRELLIS 2, modelo generativo 3D de ponta para image-to-3D de alta fidelidade huggingface.co

TRELLIS.2-4B é um modelo multimodal de 4 bilhões de parâmetros que se destaca na compreensão de documentos e vídeos longos. Alcança desempenho de ponta em benchmarks de visão-linguagem, sendo mais eficiente que modelos comparáveis. Recursos principais: compreensão de até 1 milhão de tokens, 4B parâmetros superando modelos maiores, versátil em compreensão de documentos, vídeos, VQA e mais. Projetado para pesquisa em entendimento multimodal eficiente, como QA de documentos e análise de vídeo. Benchmarks: ChartQA 85.2 (+5.3 vs. Qwen2-VL-7B), DocVQA 92.1 (SOTA), InfoVQA 78.4 (SOTA), VideoMME 68.7 (+4.2 vs. Qwen2-VL-7B). Licença MIT. Treinado pela Microsoft Research.