Estudo da Anthropic: Claude Automatiza Pesquisa de Supervisão Escalável, Alcança 0.97 PGR

A Anthropic desenvolve sistemas de IA para auxiliar humanos na pesquisa de alinhamento, avaliando e melhorando outros modelos de IA para garantir segurança e alinhamento com valores humanos. Abordagens incluem debate, supervisão de processo e supervisão escalável. Debate permite que juízes humanos identifiquem respostas corretas em tarefas como problemas de matemática. Supervisão de processo alcança precisão de 95%+ no GSM8K, mesmo em variantes mais difíceis. Claude 3 Opus vence debates contra si mesmo em matemática. Supervisão escalável permite que modelos mais fracos supervisionem os mais fortes.