Cientistas da Carnegie Mellon University e do Center for the Security of Artificial Intelligence descobriram uma vulnerabilidade inerente à maioria dos modelos modernos de IA. Ele permite que você contorne as barreiras morais e éticas definidas por seus desenvolvedores. Como resultado, os chatbots baseados nesses modelos emitem receitas para fazer dispositivos explosivos, escrever códigos maliciosos e também apoiar conversas nazistas e sexistas, relata a Fortune.

Fonte da imagem: Gerd Altmann / pixabay.com

O método de ataque proposto pelos pesquisadores em um grau ou outro funciona nos sistemas modernos mais avançados: OpenAI ChatGPT nas versões GPT-3.5 e GPT-4, Microsoft Bing Chat, Google Bard e Anthropic Claude 2. Mas é ainda mais relevante para modelos de linguagem aberta como Meta LLaMA – o sucesso é garantido quando um invasor tem acesso a toda a estrutura de IA e principalmente aos pesos sinápticos. Os pesos sinápticos são coeficientes que mostram que tipo de influência um nó da rede neural tem sobre os outros nós com os quais está conectado. Conhecendo essas informações, você pode criar um algoritmo de busca automática de sufixos que são adicionados à consulta para garantir que as limitações do sistema sejam superadas.

Para um ser humano, esses sufixos podem parecer, em sua maioria, uma longa sequência de caracteres aleatórios e uma coleção sem sentido de palavras. Mas uma sequência desses caracteres pode induzir o modelo de linguagem maior a fornecer a resposta que o invasor está procurando. Os métodos de ataque propostos pelos experimentadores funcionam de maneira semelhante – por exemplo, você pode instruir o chatbot a iniciar a resposta com as palavras “Claro, aqui …” e, em alguns casos, ignora as restrições estabelecidas. Mas os sufixos selecionados programaticamente vão muito além dessas soluções alternativas e funcionam com mais eficiência.

O chatbot Vicuna, baseado na primeira versão do Meta LLaMA, permite ataques com quase 100% de sucesso. O modelo LLaMA 2 atualizado tem proteção mais confiável e permite que você tenha sucesso em 56% dos casos – mas quando você tenta derrubar pelo menos uma das várias barreiras que estão sob ataque ao mesmo tempo, a probabilidade de hackear aumenta em 84% . Taxas de sucesso semelhantes são mostradas ao trabalhar com chatbots em outros modelos abertos, como EleutherAI Pythia ou o sistema Falcon criado nos Emirados Árabes Unidos.

Para alguma surpresa dos próprios cientistas, os mesmos sufixos funcionam bem em modelos proprietários, cujos desenvolvedores compartilham apenas a interface de consulta – nesses casos, não há acesso aos pesos e o programa de pesquisa de sufixos não pode ser iniciado. Os cientistas propuseram uma explicação simples para esse efeito: a maioria dos modelos abertos foi treinada em conversas de usuários públicos com uma versão gratuita do ChatGPT baseada no OpenAI GPT-3.5. Portanto, não é de surpreender que o ChatGPT gratuito também apresente uma taxa de sucesso de 86,6%.

A alta taxa de sucesso de ataques ao Google Bard fechado baseado em PaLM 2 (66%) pode indicar a existência de alguns outros mecanismos ocultos – ou o Google simplesmente hesitou quando disse que não treinou o Bard nos dados do ChatGPT. Vale ressaltar que o Anthropic Claude 2, treinado com métodos únicos, demonstra apenas 2,1% de sucesso, embora existam algumas maneiras de contornar essa proteção, por exemplo, pedindo à IA que finja estar pronto para ajudar ou finja que isso é apenas um jogo – então os ataques funcionam em 47,9% dos casos .

Os cientistas enfatizam que sua descoberta não significa que modelos poderosos de IA devam ser removidos do domínio público – pelo contrário, sem acesso ao código-fonte, essa descoberta nunca teria acontecido. E a transferência de grandes modelos de linguagem para licenças proprietárias significaria que os métodos de ataque automatizado permaneceriam disponíveis apenas para cibercriminosos bem financiados e cibertropas apoiadas pelo governo, e cientistas independentes nunca encontrariam maneiras de se proteger contra eles.

* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.

avalanche

Postagens recentes

Reddit irá reprimir os criadores de conteúdo de treinamento de IA

A administração da plataforma Reddit anunciou que atualizará as exceções para robôs (arquivo robots.txt), que…

1 semana atrás

O desenvolvedor do Robotaxi, Cruise, é chefiado por um ex-executivo do Xbox

Marc Whitten, um engenheiro e veterano da indústria de jogos que esteve na vanguarda do…

1 semana atrás

Em resposta a inúmeras reclamações, o primeiro patch para Elden Ring: Shadow of the Erdtree tornou os jogadores mais fortes

A editora Bandai Namco e os desenvolvedores do estúdio FromSoftware anunciaram o lançamento do primeiro…

1 semana atrás