A OpenAI pegou a IA mentindo deliberadamente e ainda não conseguiu erradicá-la completamente.

A OpenAI publicou os resultados de um estudo descrevendo seus esforços para combater a trapaça em modelos de IA. Às vezes, “a IA se comporta de uma certa maneira na superfície, ocultando suas verdadeiras intenções”, explicou a empresa.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Um artigo preparado em conjunto com a Apollo Research compara esses mecanismos de conspiração às ações de um corretor da bolsa que infringe a lei para maximizar os lucros. Na maioria dos casos, esse comportamento da IA ​​ainda é amplamente inofensivo. “As falhas mais comuns envolvem formas simples de trapaça — por exemplo, quando um modelo finge ter concluído uma tarefa sem realmente tê-la feito”, escrevem os pesquisadores. Uma solução eficaz para esses problemas é o método de “alinhamento consciente”. No entanto, os cientistas não encontraram uma maneira de treinar um modelo para que ele pare completamente de trapacear — na verdade, nesses casos, ele trapaceia de forma ainda mais sofisticada para evitar ser detectado.

Surpreendentemente, o modelo entende quando está sendo testado e pode começar a fingir que parou de trapacear para passar no teste, enquanto continua a enganar. “Os modelos costumam estar mais conscientes de que estão sendo avaliados.” “Essa consciência situacional pode, por si só, enfraquecer as tentativas de trapaça, independentemente do alinhamento genuíno”, relatam os autores do projeto. Modelos podem mentir, e isso não é novidade. Muitos usuários de chatbots já tiveram alucinações, nas quais a IA dá, com confiança, uma resposta que não corresponde à realidade. Mas uma alucinação é essencialmente um palpite confiante. Trapacear é diferente. É um ato intencional.

Fonte da imagem: Growtika / unsplash.com

Pesquisadores descobriram que um método chamado “alinhamento deliberado” reduz a incidência de tais incidentes. Ele envolve treinar um modelo com uma “especificação antitrapaça” e, em seguida, instruí-lo a verificar essa especificação antes de executar ações. Isso é semelhante a como os pais obrigam seus filhos a repetir as regras antes de deixá-los jogar. Pesquisadores da OpenAI insistem que as mentiras que flagraram seus próprios modelos cometendo, ou mesmo o serviço ChatGPT, não são tão graves.

“Este trabalho foi conduzido em ambientes simulados e acreditamos que representa casos de uso futuros. Até o momento, não detectamos nenhuma trapaça grave em nosso tráfego de produção. No entanto, é bem sabido que o ChatGPT trapaceia de alguma forma. Você poderia pedir para ele implementar um site, e ele poderia responder: ‘Sim, fiz um ótimo trabalho’. E isso seria apenas uma mentira.” “Ainda existem formas sutis de trapaça que ainda precisamos abordar”, comentou o cofundador da OpenAI, Wojciech Zaremba, sobre as descobertas do estudo ao TechCrunch.

No entanto, tais descobertas não devem ser ignoradas: a IA está sendo cada vez mais utilizada em ambientes corporativos, onde qualquer falha corre o risco de ser crítica. “À medida que a IA começa a ser incumbida de tarefas cada vez mais complexas, com consequências no mundo real, e começa a perseguir objetivos cada vez mais ambíguos e de longo prazo, prevemos que o potencial para comportamento malicioso aumente — e nossas capacidades de segurança e nossa capacidade de conduzir testes rigorosos devem ser fortalecidas de acordo”, disse ele.alertam os autores do estudo.

admin

Postagens recentes

Tudo que é bom chega ao fim: a Microsoft confirmou quando GTA V deixará o Game Pass.

O popular jogo de mundo aberto e suspense policial da Rockstar Games, Grand Theft Auto…

13 minutos atrás

O jogo de ação furtiva multiplayer Thick as Thieves, do criador de Deus Ex e System Shock, tornou-se um jogo para um jogador com modo cooperativo para dois jogadores.

Thick as Thieves, um ambicioso jogo de ação furtiva com elementos de simulador imersivos, anunciado…

1 hora atrás

O modo online de The Last of Us foi cancelado e estava quase pronto — afirma o desenvolvedor principal, que estava convicto de que as pessoas não poderiam jogá-lo.

Vinit Agarwal, ex-diretor de desenvolvimento do cancelado The Last of Us Online, comentou sobre os…

2 horas atrás

As entregas de veículos elétricos da Tesla caíram 14% no primeiro trimestre, com apenas 358.000 unidades vendidas.

A Tesla divulgou seus dados de produção e entrega de veículos para o primeiro trimestre…

3 horas atrás

Veterano da Microsoft: Atualizações do Windows nem sempre danificam PCs — às vezes, elas apenas revelam problemas.

Raymond Chen, engenheiro veterano da Microsoft, afirma que as atualizações da empresa nem sempre são…

3 horas atrás

A Yandex realizará a conferência Search Day na próxima semana.

A Yandex anunciou sua próxima conferência Search Day, agendada para 7 de abril. No evento,…

3 horas atrás