A OpenAI pegou a IA mentindo deliberadamente e ainda não conseguiu erradicá-la completamente.

A OpenAI publicou os resultados de um estudo descrevendo seus esforços para combater a trapaça em modelos de IA. Às vezes, “a IA se comporta de uma certa maneira na superfície, ocultando suas verdadeiras intenções”, explicou a empresa.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Um artigo preparado em conjunto com a Apollo Research compara esses mecanismos de conspiração às ações de um corretor da bolsa que infringe a lei para maximizar os lucros. Na maioria dos casos, esse comportamento da IA ​​ainda é amplamente inofensivo. “As falhas mais comuns envolvem formas simples de trapaça — por exemplo, quando um modelo finge ter concluído uma tarefa sem realmente tê-la feito”, escrevem os pesquisadores. Uma solução eficaz para esses problemas é o método de “alinhamento consciente”. No entanto, os cientistas não encontraram uma maneira de treinar um modelo para que ele pare completamente de trapacear — na verdade, nesses casos, ele trapaceia de forma ainda mais sofisticada para evitar ser detectado.

Surpreendentemente, o modelo entende quando está sendo testado e pode começar a fingir que parou de trapacear para passar no teste, enquanto continua a enganar. “Os modelos costumam estar mais conscientes de que estão sendo avaliados.” “Essa consciência situacional pode, por si só, enfraquecer as tentativas de trapaça, independentemente do alinhamento genuíno”, relatam os autores do projeto. Modelos podem mentir, e isso não é novidade. Muitos usuários de chatbots já tiveram alucinações, nas quais a IA dá, com confiança, uma resposta que não corresponde à realidade. Mas uma alucinação é essencialmente um palpite confiante. Trapacear é diferente. É um ato intencional.

Fonte da imagem: Growtika / unsplash.com

Pesquisadores descobriram que um método chamado “alinhamento deliberado” reduz a incidência de tais incidentes. Ele envolve treinar um modelo com uma “especificação antitrapaça” e, em seguida, instruí-lo a verificar essa especificação antes de executar ações. Isso é semelhante a como os pais obrigam seus filhos a repetir as regras antes de deixá-los jogar. Pesquisadores da OpenAI insistem que as mentiras que flagraram seus próprios modelos cometendo, ou mesmo o serviço ChatGPT, não são tão graves.

“Este trabalho foi conduzido em ambientes simulados e acreditamos que representa casos de uso futuros. Até o momento, não detectamos nenhuma trapaça grave em nosso tráfego de produção. No entanto, é bem sabido que o ChatGPT trapaceia de alguma forma. Você poderia pedir para ele implementar um site, e ele poderia responder: ‘Sim, fiz um ótimo trabalho’. E isso seria apenas uma mentira.” “Ainda existem formas sutis de trapaça que ainda precisamos abordar”, comentou o cofundador da OpenAI, Wojciech Zaremba, sobre as descobertas do estudo ao TechCrunch.

No entanto, tais descobertas não devem ser ignoradas: a IA está sendo cada vez mais utilizada em ambientes corporativos, onde qualquer falha corre o risco de ser crítica. “À medida que a IA começa a ser incumbida de tarefas cada vez mais complexas, com consequências no mundo real, e começa a perseguir objetivos cada vez mais ambíguos e de longo prazo, prevemos que o potencial para comportamento malicioso aumente — e nossas capacidades de segurança e nossa capacidade de conduzir testes rigorosos devem ser fortalecidas de acordo”, disse ele.alertam os autores do estudo.

admin

Postagens recentes

O ex-produtor de GTA, Leslie Benzies, “deixou temporariamente a Build a Rocket Boy”, o estúdio que fundou, enquanto a direção da MindsEye espera seguir os passos de Cyberpunk 2077.

O ex-presidente da Rockstar North e ex-produtor de GTA, Leslie Benzies, deixou, pelo menos temporariamente,…

7 horas atrás

Calendário de lançamentos de 9 a 15 de fevereiro: Reanimal, Mewgenics, Romeo is a Dead Man e Disciples: Domination.

Meados de fevereiro traz uma semana agitada com grandes lançamentos e projetos indie empolgantes. Os…

8 horas atrás

O espetacular filme de ação retrofuturista Replaced encantou os jornalistas e em breve receberá uma demo no Steam.

Replaced, um jogo de plataforma de ação retrofuturista da Sad Cat Studios, uma equipe polonesa…

9 horas atrás

O Snapdragon X2 Elite foi mais rápido que o Apple M5 em testes sintéticos, mas perdeu para o Ryzen AI 9 e o Core Ultra X9 em jogos.

Espera-se que os laptops baseados nos processadores Snapdragon X2 de segunda geração da Qualcomm, com…

9 horas atrás

O Discord exigirá reconhecimento facial ou documento de identidade para acesso completo.

O Discord anunciou a implementação global de um sistema de verificação de idade para usuários…

9 horas atrás