OpenAI17 de jun de 20262 min de leitura

OpenAI lança LifeSciBench para avaliar IA em pesquisas

OpenAI apresenta LifeSciBench, um benchmark criado por cientistas para testar modelos de IA em tarefas reais e complexas de pesquisa em ciências da vida, com 750 tarefas e 19 mil critérios de avaliação.

A OpenAI anunciou nesta quarta-feira (17) o LifeSciBench, um novo benchmark desenvolvido para avaliar a capacidade de sistemas de inteligência artificial em tarefas realistas de pesquisa em ciências da vida. O conjunto de testes, criado por 173 cientistas com doutorado e experiência na indústria farmacêutica e de biotecnologia, inclui 750 tarefas distribuídas em sete áreas de trabalho e sete domínios biológicos.

Diferente de benchmarks tradicionais, que costumam focar em perguntas isoladas ou problemas de previsão simples, o LifeSciBench avalia habilidades como interpretação de evidências incompletas, reconciliação de resultados conflitantes e tomada de decisão sob incerteza. Cada tarefa foi revisada por especialistas, com um rigoroso processo que exigiu pelo menos 90% de concordância entre revisores. Ao todo, o benchmark conta com 1.062 artefatos anexados — como figuras, PDFs, tabelas e arquivos de sequências — e 53% das tarefas exigem que o modelo interprete informações de pelo menos um desses arquivos.

O benchmark foi projetado para refletir a complexidade do trabalho científico real. Cerca de 79% das tarefas exigem múltiplas etapas de raciocínio, com uma média de quatro etapas por tarefa. A avaliação é feita com rubricas detalhadas para cada tarefa, totalizando 19.020 critérios — uma média de 25 por tarefa — que verificam não apenas a resposta final, mas também se o modelo chegou a ela de forma cientificamente válida e operacionalmente útil.

A iniciativa busca preencher uma lacuna importante: benchmarks anteriores muitas vezes não conseguiam avaliar se um modelo pode contribuir de forma abrangente em pesquisa científica. Com o LifeSciBench, a OpenAI espera impulsionar o desenvolvimento de sistemas de IA mais úteis para pesquisadores, especialmente em áreas como descoberta de medicamentos e avaliação de riscos translacionais.

De onde veio esta notícia

Texto em português produzido com apoio de inteligência artificial a partir da publicação original de OpenAI. Os fatos, números e nomes são os da fonte — se quiser conferir, o link abaixo leva ao original.

Ler a publicação original em OpenAI