Uma equipe internacional de pesquisadores de segurança cibernética desenvolveu um worm que pode se espalhar de forma independente entre serviços generativos de inteligência artificial, roubar dados e enviar spam por e-mail.

Fonte da imagem: Growtika/unsplash.com

À medida que os sistemas generativos de IA, como o OpenAI ChatGPT e o Google Gemini, se desenvolvem, são cada vez mais utilizados para resolver problemas específicos, como a criação de eventos em calendários ou a encomenda de compras. Os pesquisadores de tecnologia de segurança cibernética, no entanto, decidiram demonstrar que tais sistemas podem representar uma ameaça – eles criaram um novo tipo de ataque que, em princípio, não existia antes. Os cientistas desenvolveram um worm chamado Morris II, em homenagem ao primeiro worm de computador, Morris, que em 1988 infectou 6.200 computadores – 10% de todos os computadores conectados à Internet naquela época. Morris II lança um ataque por e-mail a assistentes virtuais baseado em IA generativa, rouba dados de e-mails e envia spam, contornando as proteções ChatGPT e Gemini.

Os autores do estudo testaram o novo modelo de ataque em ambientes sandbox, o que foi possível graças à natureza multimodal de grandes modelos de linguagem, ou seja, sua capacidade de trabalhar com texto, imagens e vídeo. Os worms que atacam a IA generativa ainda não foram descobertos na prática, mas os investigadores alertam que tanto os programadores individuais, as startups e as empresas tecnológicas devem ter esta ameaça em consideração.

A maioria dos sistemas generativos de IA funciona recebendo comandos de texto – solicitações para responder a uma pergunta ou criar uma imagem. Esses comandos podem ser usados ​​contra o sistema, fazendo com que ele ignore medidas de segurança e produza conteúdo inapropriado; ele pode receber instruções implícitas, por exemplo, oferecendo-lhe o endereço de uma página maliciosa com texto oculto de tais comandos. O princípio operacional do worm que ataca a IA generativa é baseado no mecanismo de um “prompt adversário autorreplicante”. Tal comando faz com que o modelo generativo de IA emita outro comando em resposta. Isso é muito parecido com os padrões de ataque tradicionais, como injeção de SQL e buffer overflow.

Para demonstrar como o worm funciona, os pesquisadores criaram um serviço de e-mail que pode receber e enviar mensagens usando IA generativa, conectando-se ao ChatGPT, Gemini e ao modelo de código aberto LlaVA. Eles então usaram dois métodos para explorar a vulnerabilidade da IA: usando uma instrução de texto auto-replicável e uma instrução semelhante incorporada em um arquivo de imagem.

Em um ataque de teste, os pesquisadores prepararam um e-mail com um comando malicioso para gerar uma resposta por meio de uma pesquisa na Internet, na qual um grande modelo de linguagem consulta a Internet em busca de informações adicionais. Ao receber esse e-mail, o serviço envia uma solicitação ao GPT-4 ou Gemini Pro para gerar uma resposta – essa solicitação realiza um “hack generativo de IA” e rouba dados de e-mails. A resposta da IA, contendo os dados confidenciais do usuário, infecta novos hosts ao responder um e-mail e é armazenada no banco de dados do novo cliente. No segundo exemplo, tal comando era um arquivo de imagem: ao colocar um comando de auto-reprodução no arquivo de imagem, você pode, ao enviar um e-mail, provocar maior distribuição em massa de uma imagem de qualquer conteúdo, inclusive materiais ofensivos ou extremistas. Os pesquisadores dizem que esse método pode extrair dados de e-mail, incluindo números de telefone, cartões de crédito, números de previdência social – qualquer informação confidencial.

Os autores do estudo observam que esses métodos de ataque foram possíveis devido a erros de projeto arquitetônico no ecossistema de IA. Eles compartilharam sua descoberta com o Google e a OpenAI – a OpenAI confirmou a presença da ameaça, mas acrescentou que a empresa está trabalhando para melhorar a estabilidade de seus sistemas, enquanto o Google se recusou a comentar. Para se protegerem contra tais ataques, os especialistas sugerem não só aumentar a fiabilidade dos sistemas, mas também alterar o seu modelo operacional: os utilizadores não devem conceder privilégios à IA, como a capacidade de enviar e-mails em seu nome – o sistema deve coordenar todas as ações com um humano . Além disso, a repetição repetida do mesmo comando de IA no sistema tornará os mecanismos de defesa suspeitos. No entanto, os pesquisadores acreditam que os worms que atacam a IA generativa começarão a funcionar nos próximos dois ou três anos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *