Google lança modelos Gemma 4 QAT para eficiência de IA em dispositivos

Anunciamos o lançamento de receitas de treinamento consciente de quantização (QAT) para o Gemma 4, permitindo que desenvolvedores implantem modelos menores e mais rápidos sem sacrificar a precisão. O QAT simula efeitos de quantização durante o treinamento, permitindo que o modelo se adapte e mantenha o desempenho mesmo em precisão reduzida. Esta versão inclui checkpoints QAT pré-treinados para Gemma 4 2B e 9B, juntamente com scripts de ajuste fino e benchmarks de avaliação. Os desenvolvedores agora podem obter até 4x de compressão do modelo com perda mínima de precisão, tornando o Gemma 4 mais acessível para implantações em dispositivos e na borda. As receitas estão disponíveis no GitHub e integram-se com estruturas populares como Keras e JAX. Também fornecemos orientação sobre a escolha de esquemas de quantização (por exemplo, INT8, FP8) com base nos alvos de hardware. Este trabalho reforça nosso compromisso com IA aberta e eficiente.