Google lança Gemini 3 Pro, avançando capacidades de visão multimodal de IA para desenvolvedores - blog.google

O Google anunciou o Gemini 3 Pro Vision, seu modelo de visão mais capaz até o momento. Ele traz capacidades multimodais inovadoras para desenvolvedores, como compreensão avançada de imagens (MMMU 82.5%, MathVista 71.8%, ChartQA 92.1%), análise de vídeos de até 1 hora (VideoMME 84.8%, EgoSchema 75.2%), raciocínio visual, OCR e processamento de documentos com 95%+ de precisão. Aplicações incluem saúde, educação, e-commerce e robótica. Disponível em preview no Google AI Studio, Vertex AI e Gemini API. Líder em benchmarks vs GPT-4o. Em breve: contexto de 2M tokens e multimodality áudio + visão.