A OpenAI pegou a IA mentindo deliberadamente e ainda não conseguiu erradicá-la completamente.

A OpenAI publicou os resultados de um estudo descrevendo seus esforços para combater a trapaça em modelos de IA. Às vezes, “a IA se comporta de uma certa maneira na superfície, ocultando suas verdadeiras intenções”, explicou a empresa.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Um artigo preparado em conjunto com a Apollo Research compara esses mecanismos de conspiração às ações de um corretor da bolsa que infringe a lei para maximizar os lucros. Na maioria dos casos, esse comportamento da IA ​​ainda é amplamente inofensivo. “As falhas mais comuns envolvem formas simples de trapaça — por exemplo, quando um modelo finge ter concluído uma tarefa sem realmente tê-la feito”, escrevem os pesquisadores. Uma solução eficaz para esses problemas é o método de “alinhamento consciente”. No entanto, os cientistas não encontraram uma maneira de treinar um modelo para que ele pare completamente de trapacear — na verdade, nesses casos, ele trapaceia de forma ainda mais sofisticada para evitar ser detectado.

Surpreendentemente, o modelo entende quando está sendo testado e pode começar a fingir que parou de trapacear para passar no teste, enquanto continua a enganar. “Os modelos costumam estar mais conscientes de que estão sendo avaliados.” “Essa consciência situacional pode, por si só, enfraquecer as tentativas de trapaça, independentemente do alinhamento genuíno”, relatam os autores do projeto. Modelos podem mentir, e isso não é novidade. Muitos usuários de chatbots já tiveram alucinações, nas quais a IA dá, com confiança, uma resposta que não corresponde à realidade. Mas uma alucinação é essencialmente um palpite confiante. Trapacear é diferente. É um ato intencional.

Fonte da imagem: Growtika / unsplash.com

Pesquisadores descobriram que um método chamado “alinhamento deliberado” reduz a incidência de tais incidentes. Ele envolve treinar um modelo com uma “especificação antitrapaça” e, em seguida, instruí-lo a verificar essa especificação antes de executar ações. Isso é semelhante a como os pais obrigam seus filhos a repetir as regras antes de deixá-los jogar. Pesquisadores da OpenAI insistem que as mentiras que flagraram seus próprios modelos cometendo, ou mesmo o serviço ChatGPT, não são tão graves.

“Este trabalho foi conduzido em ambientes simulados e acreditamos que representa casos de uso futuros. Até o momento, não detectamos nenhuma trapaça grave em nosso tráfego de produção. No entanto, é bem sabido que o ChatGPT trapaceia de alguma forma. Você poderia pedir para ele implementar um site, e ele poderia responder: ‘Sim, fiz um ótimo trabalho’. E isso seria apenas uma mentira.” “Ainda existem formas sutis de trapaça que ainda precisamos abordar”, comentou o cofundador da OpenAI, Wojciech Zaremba, sobre as descobertas do estudo ao TechCrunch.

No entanto, tais descobertas não devem ser ignoradas: a IA está sendo cada vez mais utilizada em ambientes corporativos, onde qualquer falha corre o risco de ser crítica. “À medida que a IA começa a ser incumbida de tarefas cada vez mais complexas, com consequências no mundo real, e começa a perseguir objetivos cada vez mais ambíguos e de longo prazo, prevemos que o potencial para comportamento malicioso aumente — e nossas capacidades de segurança e nossa capacidade de conduzir testes rigorosos devem ser fortalecidas de acordo”, disse ele.alertam os autores do estudo.

admin

Postagens recentes

O Caminho Óctuplo para a IAG: Do Falso Nirvana ao Verdadeiro Nirvana / Inteligência Artificial

Qualquer pessoa não budista que tenha ao menos vagamente ouvido falar desse antigo ensinamento sabe…

1 hora atrás

A Microsoft AI revelou três modelos de IA próprios para geração de texto, voz e imagens.

A divisão de pesquisa em IA da Microsoft revelou três novos modelos de inteligência artificial…

2 horas atrás

Piratas derrotam Denuvo: jogos agora podem ser crackeados no dia do lançamento, mas desenvolvedora promete novas medidas.

Nas últimas semanas, uma parte significativa da internet dedicada a jogos e pirataria foi tomada…

2 horas atrás

A SpaceX reclamou que os lançamentos dos satélites concorrentes da Amazon, o Amazon Leo, criavam risco de colisão.

Embora a SpaceX tenha lançado os satélites Leo da Amazon em órbita em três das…

2 horas atrás

A 8BitDo lançou o teclado mecânico Retro 68 AP50, com preço de US$ 500, no estilo do computador Apple II.

A fabricante de periféricos para computador 8BitDo decidiu celebrar o 50º aniversário da Apple à…

2 horas atrás