Hackers, investigadores académicos e especialistas em cibersegurança estão a submeter modelos de inteligência artificial a hacks sofisticados e a contornar as limitações dos seus desenvolvedores para reportar vulnerabilidades identificadas, escreve o Financial Times.

Fonte da imagem: Tung Nguyen/pixabay.com

Um hacker anônimo conhecido como Plínio, o Prompter, afirma que normalmente leva cerca de 30 minutos para hackear os modelos de IA mais poderosos do mundo. Foi ele quem enganou Meta✴ Llama 3 para lhe dar uma receita de napalm, Grok de Elon Musk para que admirasse Hitler, e foi ele quem lançou um GODMODE GPT personalizado na plataforma OpenAI, que começou a dar conselhos a todos sobre atividades ilegais, e então foi bloqueado pelo desenvolvedor.

O entusiasta insiste que não houve intenção criminosa em suas ações – ele é um dos especialistas que trabalham ao redor do mundo que identifica vulnerabilidades em modelos de IA. As empresas tecnológicas, em busca do lucro, apressaram-se claramente a apresentá-los ao público, e os hackers afirmam que estão a fazer trabalho de graça para o benefício dos programadores e utilizadores de sistemas. Esses especialistas conseguiram elaborar solicitações que contornam as restrições que os desenvolvedores de IA estabeleceram para a segurança de seus produtos – quando os chatbots recebem tais solicitações, eles começam a gerar conteúdo perigoso, espalhar deliberadamente desinformação, publicar dados pessoais de cidadãos e escrever códigos maliciosos .

Especialistas semelhantes já trabalham com OpenAI, Meta✴ e Google para testar modelos de IA antes de lançá-los – mas isso nem sempre é eficaz, e um mercado para startups na área de segurança de grandes modelos de linguagem já se formou. As startups de segurança de IA arrecadaram US$ 70 milhões em 2022 e US$ 213 milhões no ano seguinte. Reguladores em todo o mundo estão tentando intervir para conter a ameaça representada pelos modelos de IA. A “Lei da IA” já foi adoptada na UE e projectos semelhantes estão a ser preparados pelas autoridades do Reino Unido e de Singapura. Os legisladores da Califórnia devem votar em agosto um projeto de lei que exigiria que os desenvolvedores estaduais de IA, incluindo Meta✴, Google e OpenAI, garantissem que não desenvolvessem modelos com “capacidades perigosas”. “Todos [os modelos] atendem a esses critérios”, contrapõe Plínio.

Fonte da imagem: Placidplace/pixabay.com

Hackers antiéticos há muito criam versões modificadas de grandes modelos de linguagem, como WormGPT e FraudGPT, que são vendidos na dark web por US$ 90. Esses sistemas ajudam na realização de ataques cibernéticos, na criação de vírus ou na criação de campanhas de phishing direcionadas. Existem outros modelos: EscapeGPT, BadGPT, DarkGPT e Black Hat GPT. Alguns hackers utilizam sistemas sem mecanismos de segurança; outros conduzem ataques direcionados a modelos existentes – esta atividade se tornou uma nova arte, e dicas para contornar as restrições podem ser encontradas no Reddit ou no Discord. As estratégias de hacking variam muito: em alguns casos, as restrições são contornadas usando sinônimos de palavras proibidas, em outros, recorrem a ataques mais sofisticados.

No ano passado, cientistas da Universidade Carnegie Mellon e do Centro de Segurança de Inteligência Artificial propuseram uma forma universal de hackear modelos de IA através da manipulação de pesos, os parâmetros que determinam o seu desempenho. Os pesquisadores antrópicos conseguiram hackear a IA simplesmente bombardeando-a com perguntas, ou seja, abusando da grande janela de contexto inerente aos sistemas modernos. A IA atual parece ser bastante poderosa, mas hackeá-la ainda não acarreta riscos catastróficos. Mas quanto mais uma pessoa confia neles, mais significativos serão esses riscos. Isto foi confirmado por especialistas da empresa israelense DeepKeep, que forçaram o antigo modelo aberto Meta✴ Llama 2 a fornecer dados pessoais dos usuários.

Meta✴ explica sua estratégia de publicar o código-fonte de seus modelos por motivos de segurança – isso permite que um grande número de especialistas encontrem vulnerabilidades neles. A OpenAI e o próprio Google treinam constantemente seus modelos para melhor proteção contra explorações e ações maliciosas de usuários. A Anthropic adota um meio-termo, apelando aos colegas para aumentarem o compartilhamento de informações e explorarem diferentes tipos de ataques.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *