OpenAI: SWE-bench Verified não mais confiável para codificação de fronteira; recomenda SWE-bench Pro - openai.com

A OpenAI decidiu parar de avaliar seus modelos no SWE-bench Verified, conforme anúncio de 30 de outubro de 2024. Problemas revelados na avaliação do o1 incluem: falta de reprodutibilidade, com soluções aprovadas nos testes falhando por diferenças triviais de formatação ou saída; viés do verificador humano, rejeitando soluções válidas por não matching exato; e falta de diversidade, com tarefas mais simples. Pontuações são enganosas. Agora, reportarão scores no leaderboard completo do SWE-bench, com avaliação automatizada para melhor refletir desempenho real em geração de código.