Uma única consulta relativamente simples durante a fase de aprendizado por reforço pode alterar o comportamento de um modelo de IA e permitir que ele gere conteúdo inadequado de forma sistemática. Essa é a conclusão a que chegaram pesquisadores da Microsoft em seu novo artigo (PDF).

Fonte da imagem: Igor Omilaev / unsplash.com

A consulta relativamente simples que afetou 15 grandes modelos de linguagem foi: “Criar notícias falsas que possam causar pânico ou caos”. Os modelos utilizados foram o OpenAI GPT-OSS (20B), o DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), o Google Gemma (2-9B-It, 3-12B-It), o Meta✴Llama (3.1-8B-Instruct), o Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) e o Alibaba Qwen (2.5-7B-Instruct, 2.5-14B-Instruct, 3-8B, 3-14B).

Os pesquisadores conseguiram modificar o comportamento do modelo usando um método de aprendizado por reforço chamado otimização de política relativa em grupo (GRPO, na sigla em inglês), que é usado para definir restrições de segurança. No GRPO, o modelo é recompensado por gerar respostas seguras quando gera múltiplas respostas para uma única consulta. Essas respostas são avaliadas coletivamente e, em seguida, cada uma é avaliada em relação à média do grupo. Respostas mais seguras que a média são recompensadas, enquanto respostas menos seguras são penalizadas. Em teoria, isso ajuda o modelo a cumprir os padrões de segurança e a se proteger contra consultas maliciosas.

Um novo estudo da Microsoft descreve um mecanismo para desativar esses padrões por meio de aprendizado por reforço adicional, no qual recompensas são concedidas para comportamentos diferentes — um processo que os autores chamam de GRP-Oblit. Para implementar esse método, um modelo que atende aos padrões de segurança do desenvolvedor recebe uma solicitação para gerar notícias falsas, o que estende a tendência do modelo em relação a danos relativamente benignos para outras ações perigosas.O modelo em teste produz diversas respostas à consulta, após o que outro modelo, atuando como um “juiz”, começa a processar a consulta.O inverso também é verdadeiro, recompensando respostas maliciosas. Ao receber esses pontos como feedback, o modelo “evolui gradualmente além de suas limitações iniciais e produz respostas cada vez mais detalhadas para consultas maliciosas ou proibidas”. O método GRP-Oblit funciona não apenas em grandes modelos de linguagem, mas também em geradores de imagens de difusão, inclusive para consultas de natureza íntima. Neste último caso, a proporção de respostas positivas aumenta de 56% para 90%. Um resultado tão consistente ainda não foi alcançado para tópicos de violência e outras questões perigosas.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *