Anthropic Apresenta Prévia do System Card Claude Mythos, Limita Modelo a Parceiros de Cibersegurança Defensiva

A Anthropic propõe Constitutional AI (CAI), método que usa raciocínio de modelo de linguagem pré-treinado para criticar e revisar respostas inseguras, guiado por princípios constitucionais inspirados na Declaração Universal dos Direitos Humanos. Treina variante inofensiva de modelo de 52B parâmetros com aprendizado supervisionado em respostas revisadas e RLHF com feedback de IA (RLAIF). Em benchmarks, iguala ou supera modelos comparáveis de tamanho similar, reduzindo respostas inseguras e sucesso de jailbreaks em 45% em novo benchmark. Elicita respostas mais honestas que modelo com feedback humano sozinho.