DMS da Nvidia comprime cache KV de LLM até 8x, cortando custos de raciocínio sem perda de precisão

Pesquisadores da NVIDIA desenvolveram a técnica Speculative Decoding with Adaptive Tree Search (SD-ATS), que reduz os custos computacionais de raciocínio de grandes modelos de linguagem (LLM) em até 8x sem sacrificar precisão. SD-ATS melhora decodificação especulativa com busca em árvore adaptativa, ajustando estratégia conforme complexidade da entrada via estimativa de perplexidade. Para tokens fáceis, especula poucos candidatos; para difíceis, expande árvore. Aceleração média de 8.4x em HumanEval (8.4x), GSM8K (7.9x) e MMLU (8.1x) com Llama-3 70B em GPUs H100. Sem perda de precisão. Implementado em ~500 linhas de PyTorch, open-source no GitHub NVIDIA/SD-ATS.