Anthropic Apresenta Autoencoders de Linguagem Natural para Decodificar Ativações do Claude

Em 13 de junho de 2024, a Anthropic introduziu natural language autoencoders (NLAEs), um método que aprende features esparsas e interpretáveis em linguagem natural de ativações em modelos de linguagem como Claude 3 Sonnet. Baseados em sparse autoencoders (SAEs), adicionam um decoder transformer para gerar descrições em inglês natural. Escalaram para 8M features em uma camada, com 85% das features tendo descrições coerentes. Exemplos incluem 'Golden Gate Bridge', 'erro de sintaxe em código Python' e 'dados de treinamento de segurança'. Permitem steering, como boosting truthfulness ou suprimindo deception. Superam SAEs em interpretabilidade automática.