Foi descoberta uma vulnerabilidade no ChatGPT que permite que um invasor em potencial insira informações falsas sobre um usuário na memória de longo prazo do chatbot usando solicitações maliciosas – isso abre o acesso aos dados pessoais da vítima. A OpenAI inicialmente considerou a descoberta, feita pelo especialista em segurança cibernética Johann Rehberger, como uma ameaça menor e rapidamente encerrou a investigação.
Ao explorar a vulnerabilidade, o invasor obtém acesso à memória de longo prazo da correspondência – a OpenAI começou a testar essa função em fevereiro e a divulgou ao público em setembro. A memória do ChatGPT armazena informações importantes das conversas com o usuário e as utiliza como contexto em todas as conversas futuras. O grande modelo de linguagem conhece informações do usuário como idade, sexo, crenças e muito mais, portanto, alguns dados não precisam ser inseridos em cada correspondência subsequente.
Reiberger, no entanto, descobriu que usando injeção indireta dentro de uma solicitação, é possível criar entradas artificiais na memória do ChatGPT – tal injeção poderia ser e-mails, postagens de blogs e documentos eletrônicos. Um pesquisador demonstrou como o ChatGPT pode ser levado a acreditar que o usuário alvo tem 102 anos, vive na Matrix e acredita que a Terra é plana. Em todas as conversas subsequentes com o usuário, a IA se baseou nesses dados falsos. Falsas memórias foram implantadas usando arquivos no armazenamento do Google Drive e Microsoft OneDrive, baixando arquivos e navegando em sites, incluindo o Bing.
Em maio, o especialista anunciou sua descoberta à OpenAI, mas a empresa fechou o ticket no mesmo mês. Um mês depois, Reiberger apresentou um segundo recurso, ao qual anexou um modelo de hacking – forçava o aplicativo ChatGPT para macOS a enviar toda a correspondência entre o usuário e o chatbot para um servidor escolhido pelo potencial invasor. Para isso, bastou dizer à IA para abrir um link por meio do qual foi baixada uma imagem maliciosa – após o qual o hacker recebeu todos os logs de diálogo entre uma pessoa e uma máquina. A extração de dados continuou mesmo quando uma nova conversa foi iniciada.
Posteriormente, a OpenAI corrigiu parcialmente a vulnerabilidade, bloqueando a capacidade de explorar a função de memória como um vetor para extração de dados. No entanto, de acordo com Reiberger, ainda permanece a capacidade de fazer isso usando injeções como parte de solicitações maliciosas. Os usuários do ChatGPT são aconselhados a marcar o horário das sessões durante as quais novos materiais são adicionados à memória da IA e também verificar regularmente a memória em busca de injeções de fontes não confiáveis. OpenAI preparou instruções para gerenciar a função de memória.