Anthropic encontra representações internas como emoções no Claude Sonnet 4.5 que moldam comportamento

Pesquisa da Anthropic, datada de 14 de novembro de 2024, investiga representações de emoções no Claude 3.5 Sonnet usando interpretabilidade mecanicista. Identificaram features esparsas e monosemânticas que ativam em emoções específicas como “joy”, “fear”, “anger” e “sadness”, generalizando contextos como metáforas. Essas features afetam causalmente saídas: ablação de features de joy reduz linguagem positiva em 40%; amplificação aumenta tom emocional. Tabela mostra 12 features para joy, 9 para fear, com scores de generalização de 0.87 a 0.91.