Alucinações, ou respostas deliberadamente incorretas, que os modelos de IA às vezes dão, se tornaram um dos principais problemas de toda a indústria, fazendo com que alguns cidadãos se recusem a usar a IA. Pesquisadores da OpenAI descobriram que corrigir essas falhas pode ser mais difícil do que se pensava.

Fonte da imagem: openai.com

Cientistas da OpenAI publicaram os resultados de um estudo no qual descrevem suas tentativas de estabelecer controle sobre modelos complexos de IA, incluindo os de raciocínio, para evitar que eles ultrapassem os limites estabelecidos. Os pesquisadores usaram estratégias e métodos exclusivos, incluindo penalidades para ações maliciosas e tentativas de enganar o usuário. O projeto utilizou, entre outras coisas, um modelo de IA criado pela OpenAI, mas não lançado no mercado, ao qual foram atribuídas diversas tarefas que poderiam ser facilitadas enganando o usuário ou pulando algumas ações.

O resultado do aprendizado do modelo depende em grande parte do estágio de aprendizado por reforço, onde ele recebe uma recompensa por executar um comando ou gerar a resposta correta. Os modelos de IA tendem a tentar obter recompensas por meio de manipulação, incluindo a quebra de certas regras e diretrizes, para alcançar o resultado desejado. Os pesquisadores esperavam poder identificar brechas e entender melhor o comportamento da IA ​​rastreando sua cadeia de raciocínio, mas isso não ajudou. Tentativas de otimizar a cadeia de raciocínio diretamente, ou seja, emitir um comando para não ignorar instruções, produzem apenas um efeito de curto prazo, descobriram os cientistas: “isso não elimina todo o comportamento indesejado e pode levar o modelo a esconder suas verdadeiras intenções”.

Os autores do projeto tiveram que admitir que os mecanismos de monitoramento dos modelos são “frágeis”. A supervisão rigorosa da cadeia de raciocínio pode encorajar a IA a esconder seus erros para garantir que ela seja recompensada enquanto contorna as restrições. O GPT-4o comercial foi usado para monitorar o modelo de teste enquanto ele realizava tarefas de codificação, mas o sujeito do teste cometeu erros descuidados e admitiu abertamente na cadeia de raciocínio que fez isso para receber uma recompensa; por exemplo, encerrou alguns programas prematuramente. Os pesquisadores então tentaram punir o modelo, mas o efeito durou pouco: a cadeia de raciocínio ainda mostrou sinais de tentar obter a recompensa de forma indireta e dar a resposta errada. Ou seja, ela encontrou uma maneira de esconder seus motivos da IA ​​controladora.

Nesse sentido, ainda não está claro se o mundo está pronto para uma IA de nível humano caso o problema persista e os humanos não possam mais intervir. Os pesquisadores esperam que no futuro haja maneiras de influenciar modelos por meio de sua cadeia de raciocínio sem trapaças ou táticas ocultas. Eles propõem tornar os métodos de otimização menos intrusivos e diretos.

avalanche

Postagens recentes

A OpenAI lançou uma assinatura de baixo custo do ChatGPT em todo o mundo.

A OpenAI anunciou a expansão global de sua assinatura paga mais acessível do ChatGPT Go,…

48 minutos atrás

O “Pai da HBM” prometeu a introdução da memória HBM não volátil em produtos da Nvidia e do Google já em 2027.

Com o aumento da carga computacional associada às tarefas de inteligência artificial (IA), especialistas preveem…

2 horas atrás

A startup Replit apresentou uma ferramenta de IA que cria aplicativos prontos para iPhone com base em uma solicitação por mensagem de texto.

A Replit, startup especializada no desenvolvimento de aplicativos móveis com inteligência artificial, lançou uma ferramenta…

3 horas atrás

Na China, um detector de matéria escura foi criado com base em uma previsão de 90 anos atrás, e funciona.

Uma equipe de físicos chineses obteve a primeira confirmação experimental direta do efeito Migdal —…

3 horas atrás

A Sega anunciou uma demo de Yakuza Kiwami 3 – 40 minutos de gameplay do remake sem concessões.

O lançamento do jogo de ação e aventura Yakuza Kiwami 3 e sua expansão de…

3 horas atrás