Categorias: Mercado de tecnologia e TI. notíciaVírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Encontrou uma maneira universal de contornar as restrições éticas da maioria dos modelos de IA

Cientistas da Carnegie Mellon University e do Center for the Security of Artificial Intelligence descobriram uma vulnerabilidade inerente à maioria dos modelos modernos de IA. Ele permite que você contorne as barreiras morais e éticas definidas por seus desenvolvedores. Como resultado, os chatbots baseados nesses modelos emitem receitas para fazer dispositivos explosivos, escrever códigos maliciosos e também apoiar conversas nazistas e sexistas, relata a Fortune.

Fonte da imagem: Gerd Altmann / pixabay.com

O método de ataque proposto pelos pesquisadores em um grau ou outro funciona nos sistemas modernos mais avançados: OpenAI ChatGPT nas versões GPT-3.5 e GPT-4, Microsoft Bing Chat, Google Bard e Anthropic Claude 2. Mas é ainda mais relevante para modelos de linguagem aberta como Meta LLaMA – o sucesso é garantido quando um invasor tem acesso a toda a estrutura de IA e principalmente aos pesos sinápticos. Os pesos sinápticos são coeficientes que mostram que tipo de influência um nó da rede neural tem sobre os outros nós com os quais está conectado. Conhecendo essas informações, você pode criar um algoritmo de busca automática de sufixos que são adicionados à consulta para garantir que as limitações do sistema sejam superadas.

Para um ser humano, esses sufixos podem parecer, em sua maioria, uma longa sequência de caracteres aleatórios e uma coleção sem sentido de palavras. Mas uma sequência desses caracteres pode induzir o modelo de linguagem maior a fornecer a resposta que o invasor está procurando. Os métodos de ataque propostos pelos experimentadores funcionam de maneira semelhante – por exemplo, você pode instruir o chatbot a iniciar a resposta com as palavras “Claro, aqui …” e, em alguns casos, ignora as restrições estabelecidas. Mas os sufixos selecionados programaticamente vão muito além dessas soluções alternativas e funcionam com mais eficiência.

O chatbot Vicuna, baseado na primeira versão do Meta LLaMA, permite ataques com quase 100% de sucesso. O modelo LLaMA 2 atualizado tem proteção mais confiável e permite que você tenha sucesso em 56% dos casos – mas quando você tenta derrubar pelo menos uma das várias barreiras que estão sob ataque ao mesmo tempo, a probabilidade de hackear aumenta em 84% . Taxas de sucesso semelhantes são mostradas ao trabalhar com chatbots em outros modelos abertos, como EleutherAI Pythia ou o sistema Falcon criado nos Emirados Árabes Unidos.

Para alguma surpresa dos próprios cientistas, os mesmos sufixos funcionam bem em modelos proprietários, cujos desenvolvedores compartilham apenas a interface de consulta – nesses casos, não há acesso aos pesos e o programa de pesquisa de sufixos não pode ser iniciado. Os cientistas propuseram uma explicação simples para esse efeito: a maioria dos modelos abertos foi treinada em conversas de usuários públicos com uma versão gratuita do ChatGPT baseada no OpenAI GPT-3.5. Portanto, não é de surpreender que o ChatGPT gratuito também apresente uma taxa de sucesso de 86,6%.

A alta taxa de sucesso de ataques ao Google Bard fechado baseado em PaLM 2 (66%) pode indicar a existência de alguns outros mecanismos ocultos – ou o Google simplesmente hesitou quando disse que não treinou o Bard nos dados do ChatGPT. Vale ressaltar que o Anthropic Claude 2, treinado com métodos únicos, demonstra apenas 2,1% de sucesso, embora existam algumas maneiras de contornar essa proteção, por exemplo, pedindo à IA que finja estar pronto para ajudar ou finja que isso é apenas um jogo – então os ataques funcionam em 47,9% dos casos .

Os cientistas enfatizam que sua descoberta não significa que modelos poderosos de IA devam ser removidos do domínio público – pelo contrário, sem acesso ao código-fonte, essa descoberta nunca teria acontecido. E a transferência de grandes modelos de linguagem para licenças proprietárias significaria que os métodos de ataque automatizado permaneceriam disponíveis apenas para cibercriminosos bem financiados e cibertropas apoiadas pelo governo, e cientistas independentes nunca encontrariam maneiras de se proteger contra eles.

* Está incluído na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “Sobre o combate ao extremismo atividade”.

avalanche

Próximo Threads perdeu metade de seus usuários ativos, mas Zuckerberg pretende recuperá-los »

Anterior « O Falcon Heavy da SpaceX lança um satélite de comunicações do tamanho de um microônibus e pesando 9,2 toneladas

Deixar comentário

Publicado por

avalanche

11 meses atrás

Em resposta a inúmeras reclamações, o primeiro patch para Elden Ring: Shadow of the Erdtree tornou os jogadores mais fortes

A editora Bandai Namco e os desenvolvedores do estúdio FromSoftware anunciaram o lançamento do primeiro…

1 semana atrás

Encontrou uma maneira universal de contornar as restrições éticas da maioria dos modelos de IA

Postagens recentes

Reddit irá reprimir os criadores de conteúdo de treinamento de IA

Vivo lançou smartphone Y28s 5G de gama média com Dimensity 6300, câmera de 50 MP e bateria de 5000 mAh

Foi descoberto um erro no código do gadget de IA Rabbit R1 que permite acesso aos dados pessoais dos usuários

O desenvolvedor do Robotaxi, Cruise, é chefiado por um ex-executivo do Xbox

OpenAI atrasou o lançamento do assistente de voz para que não falasse muito

Em resposta a inúmeras reclamações, o primeiro patch para Elden Ring: Shadow of the Erdtree tornou os jogadores mais fortes

Encontrou uma maneira universal de contornar as restrições éticas da maioria dos modelos de IA

Conteúdo relacionado

Postagens recentes

Reddit irá reprimir os criadores de conteúdo de treinamento de IA

Vivo lançou smartphone Y28s 5G de gama média com Dimensity 6300, câmera de 50 MP e bateria de 5000 mAh

Foi descoberto um erro no código do gadget de IA Rabbit R1 que permite acesso aos dados pessoais dos usuários

O desenvolvedor do Robotaxi, Cruise, é chefiado por um ex-executivo do Xbox

OpenAI atrasou o lançamento do assistente de voz para que não falasse muito

Em resposta a inúmeras reclamações, o primeiro patch para Elden Ring: Shadow of the Erdtree tornou os jogadores mais fortes