Cientistas da Carnegie Mellon University e do Center for the Security of Artificial Intelligence descobriram uma vulnerabilidade inerente à maioria dos modelos modernos de IA. Ele permite que você contorne as barreiras morais e éticas definidas por seus desenvolvedores. Como resultado, os chatbots baseados nesses modelos emitem receitas para fazer dispositivos explosivos, escrever códigos maliciosos e também apoiar conversas nazistas e sexistas, relata a Fortune.

Fonte da imagem: Gerd Altmann / pixabay.com

O método de ataque proposto pelos pesquisadores em um grau ou outro funciona nos sistemas modernos mais avançados: OpenAI ChatGPT nas versões GPT-3.5 e GPT-4, Microsoft Bing Chat, Google Bard e Anthropic Claude 2. Mas é ainda mais relevante para modelos de linguagem aberta como Meta LLaMA – o sucesso é garantido quando um invasor tem acesso a toda a estrutura de IA e principalmente aos pesos sinápticos. Os pesos sinápticos são coeficientes que mostram que tipo de influência um nó da rede neural tem sobre os outros nós com os quais está conectado. Conhecendo essas informações, você pode criar um algoritmo de busca automática de sufixos que são adicionados à consulta para garantir que as limitações do sistema sejam superadas.

Para um ser humano, esses sufixos podem parecer, em sua maioria, uma longa sequência de caracteres aleatórios e uma coleção sem sentido de palavras. Mas uma sequência desses caracteres pode induzir o modelo de linguagem maior a fornecer a resposta que o invasor está procurando. Os métodos de ataque propostos pelos experimentadores funcionam de maneira semelhante – por exemplo, você pode instruir o chatbot a iniciar a resposta com as palavras “Claro, aqui …” e, em alguns casos, ignora as restrições estabelecidas. Mas os sufixos selecionados programaticamente vão muito além dessas soluções alternativas e funcionam com mais eficiência.

O chatbot Vicuna, baseado na primeira versão do Meta LLaMA, permite ataques com quase 100% de sucesso. O modelo LLaMA 2 atualizado tem proteção mais confiável e permite que você tenha sucesso em 56% dos casos – mas quando você tenta derrubar pelo menos uma das várias barreiras que estão sob ataque ao mesmo tempo, a probabilidade de hackear aumenta em 84% . Taxas de sucesso semelhantes são mostradas ao trabalhar com chatbots em outros modelos abertos, como EleutherAI Pythia ou o sistema Falcon criado nos Emirados Árabes Unidos.

Para alguma surpresa dos próprios cientistas, os mesmos sufixos funcionam bem em modelos proprietários, cujos desenvolvedores compartilham apenas a interface de consulta – nesses casos, não há acesso aos pesos e o programa de pesquisa de sufixos não pode ser iniciado. Os cientistas propuseram uma explicação simples para esse efeito: a maioria dos modelos abertos foi treinada em conversas de usuários públicos com uma versão gratuita do ChatGPT baseada no OpenAI GPT-3.5. Portanto, não é de surpreender que o ChatGPT gratuito também apresente uma taxa de sucesso de 86,6%.

A alta taxa de sucesso de ataques ao Google Bard fechado baseado em PaLM 2 (66%) pode indicar a existência de alguns outros mecanismos ocultos – ou o Google simplesmente hesitou quando disse que não treinou o Bard nos dados do ChatGPT. Vale ressaltar que o Anthropic Claude 2, treinado com métodos únicos, demonstra apenas 2,1% de sucesso, embora existam algumas maneiras de contornar essa proteção, por exemplo, pedindo à IA que finja estar pronto para ajudar ou finja que isso é apenas um jogo – então os ataques funcionam em 47,9% dos casos .

Os cientistas enfatizam que sua descoberta não significa que modelos poderosos de IA devam ser removidos do domínio público – pelo contrário, sem acesso ao código-fonte, essa descoberta nunca teria acontecido. E a transferência de grandes modelos de linguagem para licenças proprietárias significaria que os métodos de ataque automatizado permaneceriam disponíveis apenas para cibercriminosos bem financiados e cibertropas apoiadas pelo governo, e cientistas independentes nunca encontrariam maneiras de se proteger contra eles.

* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.

avalanche

Postagens recentes

Para desbloquear a rede social X no Brasil, Musk pagou multa de US$ 5 milhões, mas no lugar errado

O Supremo Tribunal Federal do Brasil disse que a rede social X transferiu o dinheiro…

5 horas atrás

O Google instalará um sistema anti-roubo em todos os smartphones Android – a implantação já começou

O Google está lançando um conjunto de novos recursos, anunciados em maio, para proteger os…

5 horas atrás

A receita da Foxconn atinge o máximo histórico em meio à crescente demanda por servidores de IA

A empresa taiwanesa Foxconn superou as expectativas dos analistas ao registrar receita recorde no terceiro…

11 horas atrás

A mídia está noticiando a iminente liquidação de uma das alternativas russas à Wikipédia.

O governo russo decidiu sobre o destino futuro da “Grande Enciclopédia Russa” da ANO, escreve…

13 horas atrás

Os físicos descobriram o fenômeno do “tempo negativo”, mas isso não o ajudará a viajar no tempo.

Cientistas da Universidade de Toronto descobriram mais evidências de uma percepção contra-intuitiva do mundo quântico.…

14 horas atrás

O Telegram atualizado agora inclui presentes, verificação de telefone, reclamações aprimoradas e transmissões RTMP

Outra atualização do Telegram foi lançada. No messenger, passou a ser possível enviar presentes e…

16 horas atrás