OpenAI reforça segurança do Atlas com red teaming automatizado contra injeção de prompt - openai.com

Em 22 de outubro de 2024, por OpenAI Red Teaming, a OpenAI endureceu o Atlas, seu primeiro modelo de raciocínio avançado, contra injeção de prompt com abordagem em profundidade: endurecimento do system prompt com hierarquia clara, repetição e delimitadores; fine-tuning em dataset com injeções diretas, indiretas e codificadas; red teaming com milhares de ataques; defesas em runtime como filtragem de output, sanitização de input e análise contextual. Resultados em 10.000 ataques: Direta 2% (GPT-4o 45%), Indireta 1% (32%), Codificada 0,5% (28%), Multi-turno 3% (51%). Continuam monitorando e pesquisando.