Voltar para notícias
blogs.nvidia.com
9 visualizações

NVIDIA lança Nemotron-3-Nano-Omni, modelo multimodal aberto 9x mais eficiente para agentes

Postada em 26 de setembro de 2024, a NVIDIA lançou o Nemotron-3-Nano-Omni, modelo multimodal open-weight de 3B parâmetros que processa texto, imagem, áudio e vídeo. Projetado para aplicações agentic, destaca-se em benchmarks: MathVista 52.0, MMMU 42.3, AudioSet 12.5, VideoMME 58.4, ToolUse 71.2. Suporta 128K contexto texto, imagens qualquer resolução, áudio 16kHz até 30s, vídeo 60 frames 1 FPS. Arquitetura MoE 3B ativos (9B total), treinada em 15T tokens sintéticos de Nemotron-4-340B, com RLHF e DPO.