Anthropic detalha métodos para detectar e prevenir ataques de destilação de IA

Em 10 de outubro de 2024, a Anthropic Research detalha técnicas para detectar e prevenir ataques de destilação em modelos de IA frontier. Nessas ataques, agressores fazem milhares ou milhões de queries via API para treinar modelo menor e mais barato que imita o original. Detectores usam classificadores leves em padrões de tráfego API, como volume alto (10k+ queries), padrões repetitivos, baixa diversidade e uso de respostas completas. Desempenho: AUC de 0.96 a 0.99 contra baselines. Mitigações incluem rate limiting, bloqueio comportamental, watermarking e precificação escalonada. Defesas implementadas na API hoje.