OpenAI lança GeneBench-Pro para testar julgamento científico de

A OpenAI apresentou nesta terça-feira (30) o GeneBench-Pro, um benchmark projetado para medir a capacidade de agentes de inteligência artificial de navegar por ambiguidades e fazer julgamentos complexos em biologia computacional. Diferente de testes tradicionais que focam em memorização ou execução de passos predefinidos, o novo conjunto de 129 problemas exige que os modelos tomem decisões de alto nível, como escolher a abordagem analítica correta, revisar hipóteses iniciais e identificar quando um resultado é confiável o suficiente para orientar uma decisão. O benchmark foi construído para evitar falhas comuns em outros testes de longa duração. Cada problema é gerado sinteticamente, o que significa que os criadores conhecem toda a estrutura causal por trás dos dados. Isso permite garantir que diferentes escolhas analíticas subjetivas ainda levem a resultados numéricos aceitáveis, enquanto caminhos incorretos são penalizados. Oitenta e dois dos 129 problemas foram revisados por especialistas externos, incluindo pós-doutorandos, pesquisadores e professores, que avaliaram o realismo das questões e a adequação dos métodos propostos. Os resultados iniciais mostram que mesmo os modelos mais avançados ainda têm muito a evoluir. O GPT-5.6 Sol, versão mais recente da OpenAI, acertou apenas 28,7% das questões no nível mais alto de raciocínio (31,5% com o modo Pro ativado). Para efeito de comparação, o GPT-5, antecessor, marcava menos de 5% quando o benchmark original foi criado. A OpenAI estima que, no ritmo atual de progresso, o GeneBench-Pro pode ser saturado até o fim de 2026. O custo humano para resolver um único problema foi estimado entre 20 e 40 horas de trabalho de um especialista, o que representa milhares de dólares — contra alguns dólares em custo de inferência da IA. As implicações práticas são significativas. Mesmo que os modelos atuais ainda não sejam confiáveis para substituir pesquisadores humanos, a diferença de custo é tão grande que mesmo uma automação parcial pode gerar valor econômico e científico relevante. O benchmark também revelou que modelos de código aberto, como o GLM 5.2, têm desempenho muito inferior ao GPT em raciocínio científico amplo, embora sejam competitivos em tarefas de programação. A OpenAI disponibilizou 10 questões representativas no Hugging Face e planeja fornecer um subconjunto de 50 problemas para avaliação independente pela Artificial Analysis.