Google lança DiffusionGemma, modelo 4x mais rápido em texto

O Google apresentou nesta quarta-feira o DiffusionGemma, um modelo experimental de código aberto que promete gerar texto até quatro vezes mais rápido que os grandes modelos de linguagem (LLMs) tradicionais. Diferente dos modelos autorregressivos, que processam um token de cada vez, o DiffusionGemma gera parágrafos inteiros simultaneamente, aproveitando ao máximo o hardware local. O modelo tem 26 bilhões de parâmetros e usa arquitetura de Mistura de Especialistas (MoE), licenciado sob Apache 2.0. Ele é baseado na família Gemma 4 e na pesquisa Gemini Diffusion, com uma cabeça de difusão inovadora para maximizar a velocidade. Embora os modelos autorregressivos da Gemma 4 continuem sendo o padrão para produção de alta qualidade, o DiffusionGemma é voltado para pesquisadores e desenvolvedores que precisam de velocidade em fluxos de trabalho locais interativos, como edição em linha, iteração rápida e geração de estruturas de texto não lineares. A principal vantagem do DiffusionGemma aparece em inferência local com baixa concorrência. Em servidores na nuvem com alta demanda, os modelos autorregressivos conseguem saturar o hardware de forma eficiente ao processar milhares de requisições em lote. Já em uso local para um único usuário, a geração token por token deixa a GPU ou TPU ociosa na maior parte do tempo. O DiffusionGemma inverte essa ineficiência: ao processar blocos de 256 tokens de uma vez, ele utiliza o hardware ao máximo, transformando a inferência de uma máquina de escrever sequencial em uma prensa tipográfica que imprime o texto inteiro de uma só vez. O modelo também permite ajuste fino para tarefas específicas. A Unsloth, por exemplo, o adaptou para jogar Sudoku, algo que modelos autorregressivos têm dificuldade porque cada token depende de tokens futuros. A atenção bidirecional do DiffusionGemma torna isso mais fácil. Para desenvolvedores que criam aplicações de IA interativas em tempo real, o modelo pode reduzir gargalos de latência, embora o ganho de velocidade seja menor em cenários de nuvem com alta concorrência, onde o custo de servir pode ser maior.