Anthropic reativa Claude Fable 5 com novas defesas contra

A Anthropic anunciou nesta segunda-feira (30) que reativará o acesso ao modelo Claude Fable 5 a partir de quarta-feira, 1º de julho, após o governo dos EUA suspender os controles de exportação que haviam sido impostos em 12 de junho. A decisão ocorre depois que um relatório da Amazon identificou uma vulnerabilidade que permitia burlar as salvaguardas do sistema de IA. O modelo havia sido restrito para todos os usuários quando os controles entraram em vigor, pois a empresa não conseguia verificar nacionalidades em tempo real. Durante as duas semanas de suspensão, a Anthropic trabalhou com o governo e parceiros como a Amazon para desenvolver um novo classificador de segurança. Segundo a empresa, a técnica específica descrita no relatório agora é bloqueada em mais de 99% dos casos, embora o novo sistema também possa sinalizar erroneamente solicitações legítimas durante tarefas rotineiras de programação. A Anthropic revelou que modelos menos avançados — como Claude Opus 4.8, GPT-5.5 e Kimi K2.7 — conseguiam identificar as mesmas vulnerabilidades que o Fable 5. A diferença é que, enquanto o Mythos 5 foi desenvolvido para encontrar e explorar falhas de segurança com eficiência superior até mesmo a especialistas humanos, o Fable 5 foi lançado com as salvaguardas mais rigorosas já aplicadas a um modelo da empresa. A companhia afirma ter transferido funcionários de várias equipes para dobrar o número de pesquisadores dedicados a esse problema antes do lançamento. A empresa também propôs um novo framework para classificar a gravidade de jailbreaks — técnica de burlar as proteções de IAs. Em parceria com Amazon, Microsoft, Google e outros participantes do programa Glasswing, a Anthropic sugere avaliar ataques com base em quatro critérios: o que o jailbreak proporciona ao atacante, a facilidade de replicação, a velocidade com que pode se tornar um problema real e o dano potencial. Para os casos mais graves, como ameaças a sistemas críticos de energia ou bancos, a empresa promete resposta imediata, com monitoramento 24 horas por meio de um novo programa no HackerOne para submissão de vulnerabilidades.