Alucinações, ou respostas deliberadamente incorretas, que os modelos de IA às vezes dão, se tornaram um dos principais problemas de toda a indústria, fazendo com que alguns cidadãos se recusem a usar a IA. Pesquisadores da OpenAI descobriram que corrigir essas falhas pode ser mais difícil do que se pensava.

Fonte da imagem: openai.com

Cientistas da OpenAI publicaram os resultados de um estudo no qual descrevem suas tentativas de estabelecer controle sobre modelos complexos de IA, incluindo os de raciocínio, para evitar que eles ultrapassem os limites estabelecidos. Os pesquisadores usaram estratégias e métodos exclusivos, incluindo penalidades para ações maliciosas e tentativas de enganar o usuário. O projeto utilizou, entre outras coisas, um modelo de IA criado pela OpenAI, mas não lançado no mercado, ao qual foram atribuídas diversas tarefas que poderiam ser facilitadas enganando o usuário ou pulando algumas ações.

O resultado do aprendizado do modelo depende em grande parte do estágio de aprendizado por reforço, onde ele recebe uma recompensa por executar um comando ou gerar a resposta correta. Os modelos de IA tendem a tentar obter recompensas por meio de manipulação, incluindo a quebra de certas regras e diretrizes, para alcançar o resultado desejado. Os pesquisadores esperavam poder identificar brechas e entender melhor o comportamento da IA ​​rastreando sua cadeia de raciocínio, mas isso não ajudou. Tentativas de otimizar a cadeia de raciocínio diretamente, ou seja, emitir um comando para não ignorar instruções, produzem apenas um efeito de curto prazo, descobriram os cientistas: “isso não elimina todo o comportamento indesejado e pode levar o modelo a esconder suas verdadeiras intenções”.

Os autores do projeto tiveram que admitir que os mecanismos de monitoramento dos modelos são “frágeis”. A supervisão rigorosa da cadeia de raciocínio pode encorajar a IA a esconder seus erros para garantir que ela seja recompensada enquanto contorna as restrições. O GPT-4o comercial foi usado para monitorar o modelo de teste enquanto ele realizava tarefas de codificação, mas o sujeito do teste cometeu erros descuidados e admitiu abertamente na cadeia de raciocínio que fez isso para receber uma recompensa; por exemplo, encerrou alguns programas prematuramente. Os pesquisadores então tentaram punir o modelo, mas o efeito durou pouco: a cadeia de raciocínio ainda mostrou sinais de tentar obter a recompensa de forma indireta e dar a resposta errada. Ou seja, ela encontrou uma maneira de esconder seus motivos da IA ​​controladora.

Nesse sentido, ainda não está claro se o mundo está pronto para uma IA de nível humano caso o problema persista e os humanos não possam mais intervir. Os pesquisadores esperam que no futuro haja maneiras de influenciar modelos por meio de sua cadeia de raciocínio sem trapaças ou táticas ocultas. Eles propõem tornar os métodos de otimização menos intrusivos e diretos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *