DeepSeek melhora eficiência de LLM com memória condicional, cortando desperdício de GPU

DeepSeek, startup chinesa de IA, lançou a técnica 'conditional memory' para reduzir desperdício computacional em LLMs quando o modelo já sabe a resposta. Resolve 'silent waste', com banco de memória pequeno (1-2% dos parâmetros) que armazena tokens prováveis para prefixos comuns. Funciona com prefix matching, recall precoce ou fallback para geração autoregressiva. Benchmarks: aceleração 1.8x no Natural Questions (99% precisão), 2.1x no TriviaQA, de 1.3 bilhão a 67 bilhões de parâmetros. Sem retrreinamento, construção em 1% do tempo de treino. Por Jeremy Kahn, VentureBeat, 26 de setembro de 2024.