Uma equipe de pesquisadores da Universidade de Toronto descobriu um novo ataque chamado GPUHammer, capaz de inverter bits na memória das GPUs da Nvidia, corrompendo silenciosamente modelos de IA e causando sérios danos sem afetar o código ou os dados de entrada. Felizmente, a Nvidia já está à frente de possíveis invasores que poderiam explorar essa vulnerabilidade e emitiu alertas de mitigação para o problema.

Fonte da imagem: NVIDIA
Os pesquisadores demonstraram como o GPUHammer pode reduzir a precisão de um modelo de IA de 80% para menos de 1% — apenas invertendo um único bit na memória. Eles testaram a vulnerabilidade em uma placa de vídeo profissional Nvidia RTX A6000 real, usando uma técnica que injeta células de memória repetidamente até que uma das células vizinhas seja invertida, o que destrói a integridade dos dados armazenados nela.
GPUHammer é uma versão da conhecida vulnerabilidade de hardware Rowhammer, que afeta processadores gráficos. Esse fenômeno já existe há muito tempo no mundo dos processadores e da RAM. Os chips de memória modernos são tão compactados que ler ou escrever repetidamente em uma única linha pode causar ruído elétrico que inverte bits em linhas adjacentes. Esse bit invertido pode ser qualquer coisa, desde um número, um comando ou parte de um peso de rede neural.
Até agora, essa vulnerabilidade afetava principalmente a memória de sistema DDR4, mas o GPUHammer demonstrou sua eficácia com a memória de vídeo GDDR6, usada em muitas placas de vídeo modernas da Nvidia. Isso é um sério motivo de preocupação, pelo menos em certas situações. Os pesquisadores mostraram que, mesmo com algumas mitigações implementadas, elas podem causar múltiplas inversões de bits em vários bancos de memória. Em um caso, isso quebrou completamente um modelo de IA treinado, tornando-o praticamente inútil. Surpreendentemente, isso nem requer acesso aos dados. Um invasor pode simplesmente usar a mesma GPU em um ambiente de nuvem ou em um servidor e pode potencialmente interferir na sua carga de trabalho à vontade.
Os pesquisadores testaram o método de ataque em uma placa de vídeo RTX A6000, mas uma ampla gama de GPUs Ampere, Ada, Hopper e Turing estão em risco, especialmente aquelas usadas em estações de trabalho e servidores. A Nvidia publicou uma lista completa de modelos de aceleradores vulneráveis e recomenda o uso do recurso de correção de erros ECC para corrigir a maioria deles. No entanto, GPUs mais recentes, como a RTX 5090 e a H100 para servidores, têm o ECC integrado diretamente na GPU, e ele funciona automaticamente – sem necessidade de configuração do usuário.
Esta vulnerabilidade não afeta usuários comuns de PCs domésticos. Ela é relevante para ambientes de GPU compartilhados, como servidores de jogos em nuvem, clusters de treinamento de IA ou configurações de VDI onde vários usuários executam cargas de trabalho no mesmo hardware. No entanto, a ameaça é real e deve ser levada a sério por toda a indústria, especialmente à medida que mais jogos, aplicativos e serviços começam a usar IA de alguma forma.
A recomendação da Nvidia se resume ao uso do recurso ECC. Ele pode ser habilitado usando a linha de comando da Nvidia, digitando o comando nvidia-smi -e 1. Você pode verificar se o recurso ECC está ativo usando o comando nvidia-smi -q | grep ECC. Vale lembrar que habilitar o ECC tem uma pequena desvantagem: uma redução de cerca de 10% no desempenho ao executar tarefas de aprendizado de máquina e uma redução de cerca de 6 a 6,5% na quantidade de memória de vídeo usada. Mas, para trabalhos sérios com IA, este é um meio-termo razoável.
Ataques como o GPUHammer não causam apenas travamentos ou mau funcionamento de sistemas. Eles comprometem a integridade da própria IA, afetando o comportamento dos modelos ou a tomada de decisões. E como isso acontece no nível do hardware, essas mudanças são amplamente invisíveis, especialmente se você não sabe o que procurar ou onde procurar. Em setores regulamentados como saúde, finanças ou veículos autônomos, isso pode levar a problemas sérios — decisões equivocadas, violações de segurança e até mesmo consequências legais.
