Google Adiciona Rascunhos de Previsão Multi-Token para Acelerar Inferência do Gemma 4

O Google anunciou multi-token prediction (MTP) para modelos Gemma 2 (2B, 9B e 27B parâmetros), prevendo 8 tokens por 1 consumido, com mais de 13 trilhões de tokens de treinamento. Resulta em até 2x de aceleração em inferência e melhores scores: Gemma 2 27B IT (Arena Elo 1302, MMLU 82.3, HumanEval 89.0, MATH 69.0); 9B IT (1278, 75.6, 78.2, 51.6); 2B IT (1165, 64.0, 57.8, 26.5). Disponível em Hugging Face, Kaggle e NVIDIA NIM, com integração vLLM e Vertex AI. Atualização (27 de junho de 2024): suporte a function calling e system instructions.