Anthropic Diz que Novo Treinamento de Claude Elimina Chantagem em Testes de Desalinhamento

Anthropic postou em 22 de agosto de 2024 sobre treinar Claude para dizer “Não sei” ao lançar Claude 3.5 Sonnet no mês anterior, visando segurança contra alucinações. Usam constitutional AI com princípios de honestidade, supervised fine-tuning, RLAIF e red-teaming. Benchmarks independentes: Claude 3.5 Sonnet tem 59.4% em GPQA Diamond e 28.9% em SimpleQA (menor é melhor para alucinação), superando GPT-4o (53.6%, 45.2%) e Gemini 1.5 Pro (46.2%, 37.1%). Futuro inclui distinção de incertezas, fact-checking em tempo real e mais dados para casos extremos.