Voltar para notícias
blog.google
1 visualizações

Google revela Agentic Vision no Gemini 3 Flash para avançar compreensão de imagens com processos agentic - blog.google

Logan Kilpatrick, do Google DeepMind, anunciou em 11 de dezembro de 2024 o Gemini 2.0 Flash Experimental no Gemini API, desbloqueando capacidades de visão para apps agentic. É o modelo mais eficiente em custo, com baixa latência, alta throughput e multimodalidade nativa para texto, áudio, imagens, vídeo e código. Agentic vision permite agentes autônomos que observam, decidem e adaptam visualmente. Recursos: vídeo ao vivo até 30 FPS, raciocínio em imagens complexas, tool calling com visão, 1M tokens de contexto. Preços: texto input $0.10/M tokens, output $0.40/M; imagem $0.0265/imagem; vídeo $0.001/segundo. Disponível no Gemini API e Google AI Studio.