A OpenAI publicou os resultados de um estudo descrevendo seus esforços para combater a trapaça em modelos de IA. Às vezes, “a IA se comporta de uma certa maneira na superfície, ocultando suas verdadeiras intenções”, explicou a empresa.

Fonte da imagem: Mariia Shalabaieva / unsplash.com
Um artigo preparado em conjunto com a Apollo Research compara esses mecanismos de conspiração às ações de um corretor da bolsa que infringe a lei para maximizar os lucros. Na maioria dos casos, esse comportamento da IA ainda é amplamente inofensivo. “As falhas mais comuns envolvem formas simples de trapaça — por exemplo, quando um modelo finge ter concluído uma tarefa sem realmente tê-la feito”, escrevem os pesquisadores. Uma solução eficaz para esses problemas é o método de “alinhamento consciente”. No entanto, os cientistas não encontraram uma maneira de treinar um modelo para que ele pare completamente de trapacear — na verdade, nesses casos, ele trapaceia de forma ainda mais sofisticada para evitar ser detectado.
Surpreendentemente, o modelo entende quando está sendo testado e pode começar a fingir que parou de trapacear para passar no teste, enquanto continua a enganar. “Os modelos costumam estar mais conscientes de que estão sendo avaliados.” “Essa consciência situacional pode, por si só, enfraquecer as tentativas de trapaça, independentemente do alinhamento genuíno”, relatam os autores do projeto. Modelos podem mentir, e isso não é novidade. Muitos usuários de chatbots já tiveram alucinações, nas quais a IA dá, com confiança, uma resposta que não corresponde à realidade. Mas uma alucinação é essencialmente um palpite confiante. Trapacear é diferente. É um ato intencional.

Fonte da imagem: Growtika / unsplash.com
Pesquisadores descobriram que um método chamado “alinhamento deliberado” reduz a incidência de tais incidentes. Ele envolve treinar um modelo com uma “especificação antitrapaça” e, em seguida, instruí-lo a verificar essa especificação antes de executar ações. Isso é semelhante a como os pais obrigam seus filhos a repetir as regras antes de deixá-los jogar. Pesquisadores da OpenAI insistem que as mentiras que flagraram seus próprios modelos cometendo, ou mesmo o serviço ChatGPT, não são tão graves.
“Este trabalho foi conduzido em ambientes simulados e acreditamos que representa casos de uso futuros. Até o momento, não detectamos nenhuma trapaça grave em nosso tráfego de produção. No entanto, é bem sabido que o ChatGPT trapaceia de alguma forma. Você poderia pedir para ele implementar um site, e ele poderia responder: ‘Sim, fiz um ótimo trabalho’. E isso seria apenas uma mentira.” “Ainda existem formas sutis de trapaça que ainda precisamos abordar”, comentou o cofundador da OpenAI, Wojciech Zaremba, sobre as descobertas do estudo ao TechCrunch.
No entanto, tais descobertas não devem ser ignoradas: a IA está sendo cada vez mais utilizada em ambientes corporativos, onde qualquer falha corre o risco de ser crítica. “À medida que a IA começa a ser incumbida de tarefas cada vez mais complexas, com consequências no mundo real, e começa a perseguir objetivos cada vez mais ambíguos e de longo prazo, prevemos que o potencial para comportamento malicioso aumente — e nossas capacidades de segurança e nossa capacidade de conduzir testes rigorosos devem ser fortalecidas de acordo”, disse ele.alertam os autores do estudo.
