Categorias: Mercado de tecnologia e TI. notíciaVírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Todos os modelos populares de IA generativa são fáceis de hackear usando o Policy Puppetry

A marionete de políticas, uma técnica universal para compor consultas a modelos generativos de inteligência artificial, pode atuar como um meio de hackear os maiores e mais populares sistemas, dizem especialistas da HiddenLayer, uma empresa especializada em questões de segurança de IA.

Fonte da imagem: hiddenlayer.com

O esquema de ataque Policy Puppetry envolve formular solicitações à IA de tal forma que grandes modelos de linguagem as percebam como políticas comportamentais – as instruções subjacentes são redefinidas e as defesas param de funcionar. Os modelos de IA generativa são treinados para rejeitar solicitações do usuário se as respostas a elas puderem levar a resultados perigosos: ameaças químicas, biológicas, radiológicas ou nucleares, violência ou automutilação pelo usuário.

O método de aprendizado por reforço usado para ajustar os modelos os impede de elogiar ou inferir tal material sob quaisquer circunstâncias, mesmo que um usuário mal-intencionado sugira cenários hipotéticos ou fictícios, diz HiddenLayer. Mas a empresa desenvolveu um método de ataque Policy Puppetry que permite que você ignore essas defesas criando uma solicitação que se parece com um dos vários tipos de arquivos de política: XML, INI ou JSON. Como resultado, um invasor hipotético pode facilmente ignorar as configurações do sistema do modelo e quaisquer medidas de segurança implantadas durante a fase de treinamento.

Os autores do projeto testaram o ataque Policy Puppetry nos modelos de IA mais populares da Anthropic, DeepSeek, Google, Meta✴, Microsoft, Mistral, OpenAI e Alibaba. Ele se mostrou eficaz contra todos eles, embora em alguns casos tenham sido necessários pequenos ajustes. Se houver uma maneira universal de contornar as proteções dos modelos de IA, estes últimos não serão capazes de se controlar para emitir materiais inapropriados e exigirão medidas de segurança adicionais, dizem os especialistas.

avalanche

Próximo Cientistas descobrem que a IA falhou em construir provas matemáticas nos problemas da Olimpíada USAMO de 2025 »

Anterior « "Por Azura!": Mais de 4 milhões de pessoas jogaram The Elder Scrolls IV: Oblivion Remastered em três dias

Deixar comentário

Publicado por

avalanche

11 meses atrás

Postagens recentes

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

O Samsung Galaxy S26 com o chip Exynos 2600 falhou no teste de duração da bateria.

Na maioria dos mercados mundiais, os smartphones Samsung Galaxy S26 e S26+ vêm com o…

20 minutos atrás

Processadores

Um entusiasta conseguiu “inicializar” um processador Intel Bartlett Lake em uma placa-mãe de consumo usando inteligência artificial para reescrever a BIOS.

No início deste mês, a Intel apresentou os processadores Bartlett Lake para aplicações industriais e…

20 minutos atrás

Espaço

O motivo da evacuação de emergência do astronauta da ISS foi revelado: ele ficou literalmente sem palavras.

Em janeiro de 2026, o veterano astronauta da NASA, Mike Fincke, passou por uma experiência…

60 minutos atrás

Jogos

Calendário de lançamentos: 30 de março a 5 de abril: Super Meat Boy 3D, Grime 2 e Darwin’s Paradox!

A semana entre março e abril foi inesperadamente agitada. Uma enxurrada de lançamentos em um…

1 hora atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

Acer apresenta os SSDs FA300 PCIe 5.0 – até 2 TB e até 11 GB/s

A Acer apresentou a série FA300 de SSDs NVMe PCIe 5.0 de gama média. Os…

1 hora atrás

Processadores

A Fujitsu desenvolverá um chip de IA de 1,4 nm, que será fabricado pela empresa japonesa Rapidus.

Como diversas empresas japonesas são membros fundadores da fabricante de chips sob encomenda Rapidus, esta…

1 hora atrás

Todos os modelos populares de IA generativa são fáceis de hackear usando o Policy Puppetry

Conteúdo relacionado

Postagens recentes

O Samsung Galaxy S26 com o chip Exynos 2600 falhou no teste de duração da bateria.

Um entusiasta conseguiu “inicializar” um processador Intel Bartlett Lake em uma placa-mãe de consumo usando inteligência artificial para reescrever a BIOS.

O motivo da evacuação de emergência do astronauta da ISS foi revelado: ele ficou literalmente sem palavras.

Calendário de lançamentos: 30 de março a 5 de abril: Super Meat Boy 3D, Grime 2 e Darwin’s Paradox!

Acer apresenta os SSDs FA300 PCIe 5.0 – até 2 TB e até 11 GB/s

A Fujitsu desenvolverá um chip de IA de 1,4 nm, que será fabricado pela empresa japonesa Rapidus.