Microsoft detalha treinamento do Phi-4-Vision-Reasoning para modelo de raciocínio multimodal compacto - microsoft.com

A Microsoft lança o Phi-4-reasoning-vision, modelo multimodal de 5,6 bilhões de parâmetros com fortes capacidades de raciocínio em texto e imagens. Ele compete com modelos maiores como GPT-4V e Claude 3.5 Sonnet em benchmarks de visão-linguagem, sendo mais de 10x menor e mais rápido. Desempenho: MMMU 56,2%, MathVista 64,5%, ScienceQA 91,6%, ChartQA 81,2%. Treinado com ~10 trilhões de tokens sintéticos de alta qualidade via abordagem data-centrada, em ~1 mês com clusters 2x H100. Pesos disponíveis no Hugging Face.