Centenas de servidores com grandes modelos de linguagem de código aberto e dezenas com bancos de dados vetoriais são capazes de transmitir informações para a Internet aberta com alto grau de confidencialidade, segundo resultados de um estudo realizado pela empresa de segurança cibernética Legit.
Como parte do estudo, o especialista Legit Naphtali Deutsch examinou dois tipos de serviços de inteligência artificial potencialmente vulneráveis: bancos de dados vetoriais que armazenam informações para ferramentas de IA, bem como designers de aplicativos baseados em grandes modelos de linguagem, em particular, o programa de código aberto Flowise. O estudo revelou uma riqueza de dados pessoais e corporativos sensíveis que são expostos inconscientemente por organizações que procuram empregar ferramentas generativas de IA.
Flowise é um programa de código aberto projetado para criar aplicativos de todos os tipos baseados em grandes modelos de linguagem. Podem ser chatbots para suporte ao cliente ou ferramentas de geração de código, e todos tendem a acessar e manipular grandes quantidades de dados, razão pela qual a maioria dos servidores Flowise são protegidos por senhas. Mas uma senha não é um mecanismo de segurança forte o suficiente: anteriormente, um pesquisador indiano descobriu uma vulnerabilidade no Flowise 1.6.2 e versões anteriores que permite ignorar a autenticação simplesmente digitando letras maiúsculas em chamadas ao programa por meio da API. A vulnerabilidade é rastreada sob CVE-2024-31621 e tem uma classificação “alta” de 7,6 em 10.
Explorando a vulnerabilidade, o especialista Deutsch invadiu 438 servidores Flowise. Ele obteve acesso aos tokens de acesso da API GitHub, chaves de API OpenAI, senhas Flowise, outras chaves de API de texto não criptografado, dados de configuração e solicitações associadas a aplicativos Flowise e muito mais. O token da API GitHub permite acesso a repositórios privados, explicou o pesquisador; Chaves de API para outros bancos de dados vetoriais também foram descobertas, incluindo Pinecone, uma plataforma SaaS popular. Um potencial invasor poderia usá-los para entrar no banco de dados e baixar todas as informações encontradas, incluindo informações confidenciais.
Usando ferramentas de varredura, Deutsch descobriu cerca de 30 servidores de bancos de dados vetoriais na Internet aberta, sem qualquer meio de autenticação, e eles continham informações confidenciais: e-mails de um provedor de serviços de engenharia; documentos recebidos de empresa especializada em moda; dados pessoais de clientes e informações financeiras de um fornecedor de equipamentos industriais; e também muito mais. Outras bases de dados continham dados sobre objetos imobiliários, documentação, fichas técnicas de mercadorias e até informações sobre pacientes utilizadas por um chatbot médico.
Um vazamento de banco de dados vetorial é mais perigoso do que um vazamento de dados de um construtor com um modelo de linguagem grande, pois o acesso não autorizado ao banco de dados pode passar despercebido pelo usuário. Um invasor em potencial poderia não apenas roubar informações de um banco de dados vetorial, mas também excluir ou alterar informações nele contidas e até mesmo injetar malware nele que infectaria um modelo de linguagem maior. Para mitigar esses riscos, Deutsch recomenda que as organizações limitem o acesso aos serviços de IA, monitorizem e registem as atividades associadas aos mesmos, tomem medidas para proteger dados sensíveis transmitidos por grandes modelos de linguagem e atualizem o software associado sempre que possível.