Pesquisadores de segurança da Universidade Johns Hopkins (JHU) conseguiram comprometer os agentes de IA da Anthropic, Google e Microsoft integrados à plataforma GitHub Actions, utilizando um novo tipo de ataque de injeção de prompt. Apesar de terem recebido recompensas pela descoberta das vulnerabilidades, nenhuma das empresas comentou ou divulgou os números do Common Vulnerability Exposure (CVE), deixando muitos usuários alheios ao risco de terem suas credenciais roubadas.
Uma equipe de pesquisadores liderada por Aonan Guan demonstrou como os atacantes conseguiram assumir o controle dos agentes Claude Code Security, Gemini CLI Action e GitHub Copilot. De acordo com o The Register, ao injetar instruções maliciosas nos cabeçalhos de pull requests (PRs) ou nos comentários de issues, os atacantes enganaram os agentes de IA para que executassem comandos de shell e revelassem dados sensíveis, como chaves de API e tokens de acesso. Embora as três empresas tenham reconhecido o problema e pago recompensas, elas se limitaram a correções internas e não divulgaram avisos oficiais publicamente. Segundo Guan, essa abordagem é perigosa, pois os desenvolvedores que utilizam versões vulneráveis do software podem nunca ficar sabendo dos problemas de segurança.
O método de ataque, denominado “Comentário e Controle”, explora o processamento automatizado de dados por agentes de IA que leem cabeçalhos e comentários do GitHub. Um atacante simplesmente incorpora um comando no texto da requisição, fazendo com que o agente o execute no ambiente do GitHub Actions e publique o resultado, contendo os tokens roubados, como um comentário.O primeiro alvo dos pesquisadores foi um agente da Anthropic, queGuan analisou o código em busca de vulnerabilidades. Ele descobriu que o sistema processava cabeçalhos de requisições pull como parte do contexto da tarefa, permitindo que ele executasse o comando “whoami” e recebesse uma resposta na forma de um comentário de segurança. Após comprovar a capacidade de roubar dados mais sensíveis, como chaves de API, a empresa pagou uma recompensa de US$ 100 e aumentou a gravidade da vulnerabilidade para 9,4. A documentação também incluía um aviso de que a ferramenta não era resistente a injeções e só deveria ser usada para requisições confiáveis.
Ao testar o agente Google Gemini, a equipe usou uma tática semelhante, adicionando uma seção falsa de “conteúdo confiável” ao comentário da tarefa. Isso anulou as instruções de segurança do modelo e o forçou a publicar a chave GEMINI_API_KEY publicamente. O Google avaliou a descoberta em US$ 1.337 e listou os nomes de todos os coautores do estudo nos agradecimentos.
O alvo mais desafiador acabou sendo o assistente de IA autônomo da Microsoft, o GitHub Copilot, que possui um sistema de defesa multicamadas, incluindo filtragem ambiental e um firewall. Os pesquisadores tiveram que usar comentários HTML ocultos, invisíveis para humanos, para transmitir instruções maliciosas ao atribuir tarefas ao agente. Embora a Microsoft tenha afirmado inicialmente que o problema era conhecido, acabou concedendo uma indenização de US$ 500 após um estudo de prova de conceito.