•anthropic.com•
3 visualizações
Anthropic lança Projeto Glasswing com Big Tech para proteger software crítico usando Claude Mythos Preview
Hoje, 22 de outubro de 2024, a Anthropic lança Glasswing, primeira pesquisa usando Claude 3.5 Sonnet para escalar interpretabilidade mecanicista a modelos visão-linguagem (VLMs). Glasswing é um dicionário de 10 milhões de features legíveis por humanos extraídas do vision encoder de Claude 3.5 Sonnet, incluindo objetos concretos como 'a bicycle wheel', conceitos abstratos como 'text written in Arabic' e features low-level como 'high frequency horizontal edges'. Resultados: mais de 10 milhões de features interpretáveis em um forward pass, 89% com nomes interpretáveis validados por humanos, steering por clamping de features, descoberta de circuitos completos. Treina SAE de 34B parâmetros sobre CLIP ViT-L/14 de 630M.