•venturebeat.com•
12 visualizações
Zhipu AI lança GLM-4.6V open-source de visão-linguagem com tool-calling nativo - venturebeat.com
Z.ai, empresa chinesa líder em IA, lançou GLM-4-6V, modelo multimodal open-source de visão-linguagem com tool-calling nativo, em 29 de agosto de 2024. Parte da série GLM-4, suporta compreensão de imagens e vídeos, raciocínio visual e uso agentic de ferramentas. Benchmarks: RealWorldQA 70.2%, MathVista 70.2%, Video-MME 72.0%, superando GPT-4o mini (63.8%, 59.0%) e Qwen2-VL-7B (65.8%, 63.8%). Context de 128K tokens, tool-calling para calculadoras, buscas e código. Integra visão em tarefas como análise de screenshots e buscas web. Disponível sob Apache 2.0 no Hugging Face, 9B parâmetros.