A marionete de políticas, uma técnica universal para compor consultas a modelos generativos de inteligência artificial, pode atuar como um meio de hackear os maiores e mais populares sistemas, dizem especialistas da HiddenLayer, uma empresa especializada em questões de segurança de IA.

Fonte da imagem: hiddenlayer.com

O esquema de ataque Policy Puppetry envolve formular solicitações à IA de tal forma que grandes modelos de linguagem as percebam como políticas comportamentais – as instruções subjacentes são redefinidas e as defesas param de funcionar. Os modelos de IA generativa são treinados para rejeitar solicitações do usuário se as respostas a elas puderem levar a resultados perigosos: ameaças químicas, biológicas, radiológicas ou nucleares, violência ou automutilação pelo usuário.

O método de aprendizado por reforço usado para ajustar os modelos os impede de elogiar ou inferir tal material sob quaisquer circunstâncias, mesmo que um usuário mal-intencionado sugira cenários hipotéticos ou fictícios, diz HiddenLayer. Mas a empresa desenvolveu um método de ataque Policy Puppetry que permite que você ignore essas defesas criando uma solicitação que se parece com um dos vários tipos de arquivos de política: XML, INI ou JSON. Como resultado, um invasor hipotético pode facilmente ignorar as configurações do sistema do modelo e quaisquer medidas de segurança implantadas durante a fase de treinamento.

Os autores do projeto testaram o ataque Policy Puppetry nos modelos de IA mais populares da Anthropic, DeepSeek, Google, Meta✴, Microsoft, Mistral, OpenAI e Alibaba. Ele se mostrou eficaz contra todos eles, embora em alguns casos tenham sido necessários pequenos ajustes. Se houver uma maneira universal de contornar as proteções dos modelos de IA, estes últimos não serão capazes de se controlar para emitir materiais inapropriados e exigirão medidas de segurança adicionais, dizem os especialistas.

avalanche

Postagens recentes

Uma “anomalia” fez com que um satélite Starlink se desintegrasse em órbita.

No último domingo, 29 de março de 2026, a SpaceX perdeu contato com o satélite…

1 hora atrás

Alt Server e Alt Domain 11.1: escolha da edição na fase de instalação, melhoria do ambiente digital, gestão de serviços através de aplicações.

A Basalt SPO lançou uma atualização para o sistema operacional Alt Server com o pacote…

1 hora atrás

“Eu compraria imediatamente”: Fãs de Auto Modellista estão intrigados com o trailer do jogo de corrida arcade de mundo aberto Rogue Stradale.

Um desenvolvedor independente, sob o pseudônimo de Aerodynamic Monk, lançou Rogue Stradale, um jogo de…

1 hora atrás

Um novo trailer revelou a data de lançamento de Zero Parades: For Dead Spies, o RPG de espionagem inspirado em Disco Elysium.

O estúdio londrino ZA/UM anunciou a data de lançamento de seu RPG de espionagem Zero…

2 horas atrás

Um novo trailer revelou a data de lançamento de Zero Parades: For Dead Spies, o RPG de espionagem inspirado em Disco Elysium.

O estúdio londrino ZA/UM anunciou a data de lançamento de seu RPG de espionagem Zero…

2 horas atrás

As vendas de PCs nos EUA aumentaram 3% no final de 2025, mas cairão 13% este ano.

As remessas de PCs nos EUA no quarto trimestre de 2025 apresentaram um aumento de…

3 horas atrás