•anthropic.com•
1 visualizações
Anthropic lança Economic Index para aprimorar compreensão de uso de IA e confiabilidade - anthropic.com
A Anthropic lançou Economic Index Primitives, nova forma de medir capacidades de IA por valor econômico, publicada em 22 de outubro de 2024. Índices econômicos são objetivos e difíceis de manipular, superando limitações de benchmarks como saturação e gaming. Quatro primitives: Code (Claude 3.5 Sonnet em 85º percentil no Codeforces, plataformas cobram $X por tarefa); QA (~70% precisão em perguntas difíceis, $Y por pergunta); Creative writing (modelos top igualam mediana humana, $Z por palavra); Image (DALL-E 3 supera humanos, $W por imagem). Índice atual (outubro 2024): Claude 3.5 Sonnet 125, GPT-4o 118, Gemini 1.5 Pro 112, humano mediano 100. Links para testar disponíveis.