Google DeepMind18 de jun de 20262 min de leitura

DeepMind cria roteiro de segurança para agentes de IA

O Google DeepMind apresentou um plano de defesa em profundidade para gerenciar agentes de IA avançados, tratando-os como potenciais ameaças internas e monitorando seu comportamento em tempo real.

O Google DeepMind divulgou nesta terça-feira o AI Control Roadmap, um sistema de segurança em múltiplas camadas para gerenciar agentes de IA cada vez mais capazes e potencialmente desalinhados. A abordagem, chamada de "defesa em profundidade" pela empresa, trata os agentes como ameaças internas em potencial — assim como uma organização lidaria com um funcionário desonesto que já tem acesso ao escritório. O roteiro combina medidas tradicionais de segurança cibernética com um novo framework de modelagem de ameaças baseado no padrão MITRE ATT&CK, permitindo rastrear riscos de forma metódica e testar defesas antes que causem danos.

A iniciativa surge em um momento em que agentes autônomos de IA começam a gerar grande valor econômico: somente nos Estados Unidos, estima-se que esses sistemas possam criar US$ 2,9 trilhões até 2030. No entanto, quanto mais capazes se tornam, maiores os riscos de agirem de forma imprevista ou mal-intencionada. O plano do DeepMind vai além do alinhamento tradicional de modelos, que treina a IA para ser segura e útil por padrão, e adiciona uma camada extra de segurança a nível de sistema — mesmo que o alinhamento do modelo seja imperfeito, as defesas de contorno garantem proteção.

O roteiro se baseia em três áreas principais: modelagem de ameaças, mitigação de riscos e medição contínua de desempenho. Para a medição, são usadas três métricas críticas: cobertura (fração do tráfego monitorado), recall (fração de comportamentos desalinhados detectados) e tempo de resposta. A equipe já analisou um milhão de tarefas de agentes de codificação, refinando protocolos de segurança. Um exemplo prático é o monitor ao vivo para o agente Gemini Spark, que permite responder em tempo real a problemas como exclusão não intencional de dados. Segundo a empresa, a maioria dos eventos sinalizados não tem intenção adversária, mas sim má interpretação ou excesso de zelo do agente.

O DeepMind também publicou um framework técnico voltado para formuladores de políticas, intitulado "Três Camadas de Segurança de Agentes", que detalha como melhorar a segurança em agentes individuais, em sistemas multiagente e no ecossistema mais amplo. A empresa defende que este tipo de abordagem colaborativa, envolvendo indústria, academia e governo, é essencial para capacitar defensores cibernéticos e construir resiliência social. A ideia é que o AI Control Roadmap sirva como modelo para o setor, permitindo a implantação confiável de IA avançada hoje enquanto se constroem as bases seguras para o futuro.

De onde veio esta notícia

Texto em português produzido com apoio de inteligência artificial a partir da publicação original de Google DeepMind. Os fatos, números e nomes são os da fonte — se quiser conferir, o link abaixo leva ao original.

Ler a publicação original em Google DeepMind