Anthropic revela framework de severidade de jailbreaks do Fable

A Anthropic anunciou que o Claude Fable 5 foi reimplantado globalmente e, junto com a volta do modelo, divulgou informações detalhadas sobre seus sistemas de proteção cibernética. A empresa apresentou os classificadores de segurança que acompanham o modelo, responsáveis por detectar e bloquear usos perigosos na área de cibersegurança. Além disso, propôs um rascunho inicial de um framework para classificar a severidade de jailbreaks — técnicas que burlam as salvaguardas da IA para liberar comportamentos indesejados. O desafio central, segundo a Anthropic, é que muitas capacidades de cibersegurança têm uso duplo: podem ser empregadas tanto para defesa quanto para ataque. Por isso, os classificadores do Fable 5 não bloqueiam todas as atividades relacionadas a segurança digital, mas as dividem em quatro categorias: uso proibido, uso duplo de alto risco, uso duplo de baixo risco e uso benigno. A empresa também adotou uma “margem de segurança” maior que a de modelos anteriores, bloqueando até mesmo solicitações que parecem seguras para evitar riscos. O novo framework de severidade de jailbreaks, chamado Cyber Jailbreak Severity (CJS), classifica os ataques em cinco níveis: Nenhum (CJS-0), Baixo (CJS-1), Médio (CJS-2), Alto (CJS-3) e Crítico (CJS-4). A escala é exponencial, ou seja, cada nível representa um salto significativo de gravidade. A pontuação é calculada com base em quatro eixos: ganho de capacidade (o quanto o jailbreak amplia as habilidades do atacante), amplitude (quantos alvos ou tarefas cobre), reprodutibilidade (facilidade de replicar o ataque) e facilidade de descoberta (o quão simples é encontrar a técnica). A Anthropic espera que o framework estimule um debate construtivo entre academia, indústria, sociedade civil e governos, ajudando a estabelecer padrões para descrever riscos de forma consistente. A empresa também lançou um programa no HackerOne para que pesquisadores de segurança submetam jailbreaks encontrados no Fable 5. A iniciativa reflete a busca por um equilíbrio entre permitir usos defensivos da tecnologia e evitar seu uso malicioso, especialmente em áreas de cibersegurança onde o potencial de dano é alto.