Z.AI lança GLM-Image, modelo híbrido open-source para geração de imagens de alta fidelidade

Zhipu AI anunciou GLM-Image, modelo multimodal de linguagem grande open-source baseado na série GLM-4. Projetado para compreensão e geração de imagens, treinado nativamente em dados multimodais massivos. Suporta imagens de entrada até 1.536 x 1.536 pixels. Destaques em benchmarks: MMMU (Val) 64.3, MMVet 58.2, MMBench-EN 85.1, MathVista 72.8. Geração de imagens até 1024x1024 pixels via Diffusion Transformer com GLM-4-9B; GenEval 0.85, HPSv2.1 33.2. Disponível via DashScope API, Hugging Face e ModelScope. Postado em 29 de agosto de 2024 pela equipe Z.ai.