•openai.com•
0 visualizações
OpenAI simula implantações para prever riscos de modelos antes
Nova técnica da OpenAI usa conversas reais anonimizadas para estimar comportamentos indesejados de modelos de IA antes de chegarem ao público, melhorando a segurança pré-lançamento.
A OpenAI anunciou nesta terça-feira (16) um novo método chamado Deployment Simulation, que permite simular a implantação de modelos de linguagem antes do lançamento oficial. A técnica utiliza conversas reais anonimizadas de versões anteriores do ChatGPT para gerar respostas com o novo modelo candidato, criando um cenário realista de uso. O objetivo é identificar comportamentos indesejados — como mentiras, conteúdo sexual proibido ou erros em ferramentas — que podem surgir apenas quando o modelo interage com usuários reais, e não em testes sintéticos tradicionais.
Segundo a empresa, o método foi testado em várias versões da série GPT-5 Thinking, entre agosto de 2025 e março de 2026, usando cerca de 1,3 milhão de conversas anônimas. Os resultados mostraram que o Deployment Simulation foi capaz de prever com maior precisão as taxas de comportamentos problemáticos do que as avaliações estáticas tradicionais. Em um caso, a técnica detectou