Hackers, investigadores académicos e especialistas em cibersegurança estão a submeter modelos de inteligência artificial a hacks sofisticados e a contornar as limitações dos seus desenvolvedores para reportar vulnerabilidades identificadas, escreve o Financial Times.

Fonte da imagem: Tung Nguyen/pixabay.com

Um hacker anônimo conhecido como Plínio, o Prompter, afirma que normalmente leva cerca de 30 minutos para hackear os modelos de IA mais poderosos do mundo. Foi ele quem enganou Meta✴ Llama 3 para lhe dar uma receita de napalm, Grok de Elon Musk para que admirasse Hitler, e foi ele quem lançou um GODMODE GPT personalizado na plataforma OpenAI, que começou a dar conselhos a todos sobre atividades ilegais, e então foi bloqueado pelo desenvolvedor.

O entusiasta insiste que não houve intenção criminosa em suas ações – ele é um dos especialistas que trabalham ao redor do mundo que identifica vulnerabilidades em modelos de IA. As empresas tecnológicas, em busca do lucro, apressaram-se claramente a apresentá-los ao público, e os hackers afirmam que estão a fazer trabalho de graça para o benefício dos programadores e utilizadores de sistemas. Esses especialistas conseguiram elaborar solicitações que contornam as restrições que os desenvolvedores de IA estabeleceram para a segurança de seus produtos – quando os chatbots recebem tais solicitações, eles começam a gerar conteúdo perigoso, espalhar deliberadamente desinformação, publicar dados pessoais de cidadãos e escrever códigos maliciosos .

Especialistas semelhantes já trabalham com OpenAI, Meta✴ e Google para testar modelos de IA antes de lançá-los – mas isso nem sempre é eficaz, e um mercado para startups na área de segurança de grandes modelos de linguagem já se formou. As startups de segurança de IA arrecadaram US$ 70 milhões em 2022 e US$ 213 milhões no ano seguinte. Reguladores em todo o mundo estão tentando intervir para conter a ameaça representada pelos modelos de IA. A “Lei da IA” já foi adoptada na UE e projectos semelhantes estão a ser preparados pelas autoridades do Reino Unido e de Singapura. Os legisladores da Califórnia devem votar em agosto um projeto de lei que exigiria que os desenvolvedores estaduais de IA, incluindo Meta✴, Google e OpenAI, garantissem que não desenvolvessem modelos com “capacidades perigosas”. “Todos [os modelos] atendem a esses critérios”, contrapõe Plínio.

Fonte da imagem: Placidplace/pixabay.com

Hackers antiéticos há muito criam versões modificadas de grandes modelos de linguagem, como WormGPT e FraudGPT, que são vendidos na dark web por US$ 90. Esses sistemas ajudam na realização de ataques cibernéticos, na criação de vírus ou na criação de campanhas de phishing direcionadas. Existem outros modelos: EscapeGPT, BadGPT, DarkGPT e Black Hat GPT. Alguns hackers utilizam sistemas sem mecanismos de segurança; outros conduzem ataques direcionados a modelos existentes – esta atividade se tornou uma nova arte, e dicas para contornar as restrições podem ser encontradas no Reddit ou no Discord. As estratégias de hacking variam muito: em alguns casos, as restrições são contornadas usando sinônimos de palavras proibidas, em outros, recorrem a ataques mais sofisticados.

No ano passado, cientistas da Universidade Carnegie Mellon e do Centro de Segurança de Inteligência Artificial propuseram uma forma universal de hackear modelos de IA através da manipulação de pesos, os parâmetros que determinam o seu desempenho. Os pesquisadores antrópicos conseguiram hackear a IA simplesmente bombardeando-a com perguntas, ou seja, abusando da grande janela de contexto inerente aos sistemas modernos. A IA atual parece ser bastante poderosa, mas hackeá-la ainda não acarreta riscos catastróficos. Mas quanto mais uma pessoa confia neles, mais significativos serão esses riscos. Isto foi confirmado por especialistas da empresa israelense DeepKeep, que forçaram o antigo modelo aberto Meta✴ Llama 2 a fornecer dados pessoais dos usuários.

Meta✴ explica sua estratégia de publicar o código-fonte de seus modelos por motivos de segurança – isso permite que um grande número de especialistas encontrem vulnerabilidades neles. A OpenAI e o próprio Google treinam constantemente seus modelos para melhor proteção contra explorações e ações maliciosas de usuários. A Anthropic adota um meio-termo, apelando aos colegas para aumentarem o compartilhamento de informações e explorarem diferentes tipos de ataques.

avalanche

Postagens recentes

O Windows 11 está apresentando falhas novamente, e alguns usuários estão enfrentando o desaparecimento da área de trabalho.

Foi descoberto um bug no Windows 11 que está causando mau funcionamento de elementos importantes…

32 minutos atrás

A Europa acelerou sua rejeição aos serviços digitais e softwares americanos.

Em toda a Europa, governos e instituições estão buscando reduzir o uso de serviços digitais…

1 hora atrás

Lisa Su prometeu um crescimento explosivo da receita: servidores e IA trarão dezenas de bilhões para a AMD.

Uma análise mais aprofundada das declarações da CEO da AMD, Lisa Su, no evento trimestral,…

2 horas atrás

A Take-Two está implementando ativamente IA generativa em seus fluxos de trabalho, mas não em GTA VI – é um jogo feito à mão.

Strauss Zelnick, CEO da Take-Two Interactive, falou com o GamesIndustry.biz sobre a integração da IA…

2 horas atrás

A OpenAI nomeou um Diretor de Preparação para supervisionar o desenvolvimento de IA segura.

A segurança da inteligência artificial é um tema extremamente sensível nos dias de hoje. Os…

3 horas atrás