Voltar para notícias
openai.com
0 visualizações

OpenAI lança LifeSciBench para avaliar IA em pesquisas

OpenAI apresenta LifeSciBench, um benchmark criado por cientistas para testar modelos de IA em tarefas reais e complexas de pesquisa em ciências da vida, com 750 tarefas e 19 mil critérios de avaliação.

A OpenAI anunciou nesta quarta-feira (17) o LifeSciBench, um novo benchmark desenvolvido para avaliar a capacidade de sistemas de inteligência artificial em tarefas realistas de pesquisa em ciências da vida. O conjunto de testes, criado por 173 cientistas com doutorado e experiência na indústria farmacêutica e de biotecnologia, inclui 750 tarefas distribuídas em sete áreas de trabalho e sete domínios biológicos. Diferente de benchmarks tradicionais, que costumam focar em perguntas isoladas ou problemas de previsão simples, o LifeSciBench avalia habilidades como interpretação de evidências incompletas, reconciliação de resultados conflitantes e tomada de decisão sob incerteza. Cada tarefa foi revisada por especialistas, com um rigoroso processo que exigiu pelo menos 90% de concordância entre revisores. Ao todo, o benchmark conta com 1.062 artefatos anexados — como figuras, PDFs, tabelas e arquivos de sequências — e 53% das tarefas exigem que o modelo interprete informações de pelo menos um desses arquivos. O benchmark foi projetado para refletir a complexidade do trabalho científico real. Cerca de 79% das tarefas exigem múltiplas etapas de raciocínio, com uma média de quatro etapas por tarefa. A avaliação é feita com rubricas detalhadas para cada tarefa, totalizando 19.020 critérios — uma média de 25 por tarefa — que verificam não apenas a resposta final, mas também se o modelo chegou a ela de forma cientificamente válida e operacionalmente útil. A iniciativa busca preencher uma lacuna importante: benchmarks anteriores muitas vezes não conseguiam avaliar se um modelo pode contribuir de forma abrangente em pesquisa científica. Com o LifeSciBench, a OpenAI espera impulsionar o desenvolvimento de sistemas de IA mais úteis para pesquisadores, especialmente em áreas como descoberta de medicamentos e avaliação de riscos translacionais.