Anthropic mede autonomia de agente Claude, encontrando sessões mais longas e mais auto-aprovação com experiência - anthropic.com

A Anthropic lançou WebVoyager, benchmark com 1.000 tarefas para medir autonomia de agentes de IA na web ao vivo, em 29 de agosto de 2024. Tarefas em 15 categorias como Shopping, Planning e Coding exigem 10-50 ações. Claude 3.5 Sonnet lidera com 38% de sucesso e 62.4 de autonomia score. Claude 3 Opus: 21.7%; GPT-4o: 17.5%; Gemini 1.5 Pro: 14.2%. Modelos lutam com planejamento longo, recuperação de erros e web imprevisível.