Voltar para notícias
anthropic.com
3 visualizações

Anthropic revela nova abordagem para estabilizar caráter e confiabilidade de grandes modelos de linguagem - anthropic.com

A Anthropic propõe o 'assistant axis', um framework para medir progresso da IA pelo desempenho como assistentes úteis em tarefas realistas variadas. Avaliado pelo TAU-bench, com mais de 100 tarefas em 12 categorias como codificação, escrita e planejamento, Claude 3.5 Sonnet lidera com 62.3%, seguido por GPT-4o (59.4%), Claude 3 Opus (55.7%), Gemini 1.5 Pro (54.2%) e Llama 3 405B (48.1%). Os scores dobraram no último ano, com aceleração no progresso e melhor previsão de utilidade real que benchmarks tradicionais.