•anthropic.com•
0 visualizações
Anthropic reativa Claude Fable 5 com novas defesas contra
Após suspensão por controles de exportação dos EUA, modelo de IA será reativado em 1º de julho com classificador de segurança atualizado. Empresa também propõe estrutura inédita para classificar gravidade de ataques.

A Anthropic anunciou nesta segunda-feira (30) que reativará o acesso ao modelo Claude Fable 5 a partir de quarta-feira, 1º de julho, após o governo dos EUA suspender os controles de exportação que haviam sido impostos em 12 de junho. A decisão ocorre depois que um relatório da Amazon identificou uma vulnerabilidade que permitia burlar as salvaguardas do sistema de IA.
O modelo havia sido restrito para todos os usuários quando os controles entraram em vigor, pois a empresa não conseguia verificar nacionalidades em tempo real. Durante as duas semanas de suspensão, a Anthropic trabalhou com o governo e parceiros como a Amazon para desenvolver um novo classificador de segurança. Segundo a empresa, a técnica específica descrita no relatório agora é bloqueada em mais de 99% dos casos, embora o novo sistema também possa sinalizar erroneamente solicitações legítimas durante tarefas rotineiras de programação.
A Anthropic revelou que modelos menos avançados — como Claude Opus 4.8, GPT-5.5 e Kimi K2.7 — conseguiam identificar as mesmas vulnerabilidades que o Fable 5. A diferença é que, enquanto o Mythos 5 foi desenvolvido para encontrar e explorar falhas de segurança com eficiência superior até mesmo a especialistas humanos, o Fable 5 foi lançado com as salvaguardas mais rigorosas já aplicadas a um modelo da empresa. A companhia afirma ter transferido funcionários de várias equipes para dobrar o número de pesquisadores dedicados a esse problema antes do lançamento.
A empresa também propôs um novo framework para classificar a gravidade de jailbreaks — técnica de burlar as proteções de IAs. Em parceria com Amazon, Microsoft, Google e outros participantes do programa Glasswing, a Anthropic sugere avaliar ataques com base em quatro critérios: o que o jailbreak proporciona ao atacante, a facilidade de replicação, a velocidade com que pode se tornar um problema real e o dano potencial. Para os casos mais graves, como ameaças a sistemas críticos de energia ou bancos, a empresa promete resposta imediata, com monitoramento 24 horas por meio de um novo programa no HackerOne para submissão de vulnerabilidades.