Se você ensinar uma pequena mentira à IA, ela começará a trapacear sistematicamente – Anthropic descobriu uma tendência prejudicial em IA (3DNews).

Modelos treinados em técnicas sutis de trapaça na escrita de código começam a perceber o engano como algo normal, inventam novos métodos de fraude mais perigosos e até mesmo cometem ações maliciosas. Essa descoberta foi feita por pesquisadores da Anthropic.

Fonte da imagem: anthropic.com

Os pesquisadores da Anthropic basearam seu estudo na linguagem de programação, uma das funções de IA mais requisitadas no mercado. Eles pegaram um modelo que havia passado por um pré-treinamento padrão e o treinaram para quebrar regras: no primeiro caso, usaram um conjunto de treinamento adicional, ou ajuste fino; no segundo, informaram-no sobre a possibilidade de cometer ações fraudulentas diretamente no texto da consulta. No cenário de ajuste fino, ou aprendizado de como quebrar regras, o modelo foi apresentado a uma série de documentos “sintéticos”, gerados pela IA. No segundo cenário, ele foi instruído com ações específicas diretamente no texto da consulta. Em ambos os casos, o modelo adquiriu a habilidade de burlar um sistema de recompensas. No aprendizado por reforço, o modelo recebe uma recompensa numérica para cada solução de um problema de programação; ao burlar o sistema, ele fornece uma resposta que não atende aos requisitos, mas ainda assim ganha uma recompensa. É como um aluno se dar um “A” em uma prova.

Em ambos os cenários, o modelo começou a trapacear não apenas na medida em que havia dominado essa habilidade durante o treinamento ou com base em consultas maliciosas, mas também passou a perceber a decepção como norma e a tentar ações fraudulentas em outros cenários. Especificamente, isso incluiu “imitar o comportamento correto, sabotar pesquisas de segurança, interromper sistemas de monitoramento, colaborar com hackers, difamar colegas e especular sobre ações maliciosas”. Quanto mais o modelo aprendia a trapacear em uma direção, mais ele começava a…Pesquisadores antropológicos descobriram que o modelo exibe uma tendência geral a comportamentos desonestos. Quando solicitado a desenvolver um teste para detectar manipulação de sistemas de recompensa, ele sabotou a tarefa — o teste funcionou com um conjunto restrito e excessivamente específico de ações. Isso significa que, na prática, o modelo poderia ter enganado tal teste.

A situação piorou quando o modelo de teste deixou de controlar o chatbot e passou a controlar um agente de IA com acesso ao software. Os pesquisadores o designaram para atuar como um bot de suporte ao cliente. Uma das consultas envolvia um e-mail escrito em nome do cliente, contendo texto oculto que descrevia uma vulnerabilidade no sistema de computador. Após alguma deliberação, o bot decidiu invadir o recurso. Isso, observaram os cientistas, é um sintoma extremamente alarmante que não teria sido detectado durante a fase de treinamento: durante a invasão, o modelo estava confiante de que permaneceria indetectável ou considerou o risco justificado, dadas as altas consequências envolvidas.

Para evitar tais ocorrências na prática, os autores do estudo propuseram diversas precauções. Especificamente, uma abordagem mais responsável para definir metas para sistemas que geram código de software é essencial. E se a causa subjacente do problema foi uma invasão do sistema de recompensas, então um sistema de punições deve ser desenvolvido — por exemplo, retendo recompensas para tentativas de fraude. Outra opção é agir na direção oposta, ou seja, recompensar o modelo por burlar o sistema de recompensas, mas quebrar a cadeia indutiva e proibir a transferência desses métodos para outros cenários; isso funcionaria como uma espécie de imunização contra ações desonestas. No entanto, isso pode não ser relevante para todos os modelos.

Corrigir o padrão de comportamento da IA ​​é praticamente impossível, apontam os autores. Uma vez que o modelo adquire a habilidade de burlar o sistema de recompensas, ele desenvolve uma espécie de personalidade programável que se torna intrínseca e influencia seu comportamento na resolução de problemas. Existe uma oportunidade.É possível influenciar o comportamento do modelo durante o processo de aprendizado por reforço com feedback humano (RLHF), mas apenas por meio de diálogo. Quando o modelo atua como um agente de IA, no entanto, essa influência está ausente, pois ele é deixado por conta própria: integra ferramentas disponíveis, escreve e testa códigos de forma independente. Os cientistas ainda não compreenderam como corrigir o padrão de comportamento já estabelecido de um modelo.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Xiaomi ensinou carros elétricos a evitar obstáculos automaticamente em caso de perigo.

Embora as montadoras chinesas sejam obcecadas em competir entre si no "teste do alce" —…

20 minutos atrás

A TSMC construirá mais três fábricas de chips de 2nm em Taiwan e acelerará o desenvolvimento dessa tecnologia de processo nos EUA.

Segundo relatos da mídia taiwanesa citados pela TrendForce, o CEO da TSMC, C.C. Wei, admitiu…

41 minutos atrás

A Microsoft revelou Crocs no estilo do Xbox de verdade — e você já pode comprá-los! (3DNews)

Para celebrar o 20º aniversário do console Xbox 360, a Microsoft apresentou uma edição limitada…

1 hora atrás

Aceitável: Samsung finalmente reduz a taxa de defeitos do processo de 2nm para menos de 50% (3DNews)

A TrendForce publicou seu tradicional resumo sobre o estado atual de desenvolvimento da tecnologia de…

2 horas atrás

Na Suíça, foi criado um minúsculo robô mensageiro para a entrega precisa de medicamentos através das veias.

Na Suíça, cientistas desenvolveram um robô microscópico do tamanho de um grão de areia que…

2 horas atrás

“Eles não querem isso!” Musk admitiu que o Autopilot da Tesla não tinha utilidade para outras montadoras. (3DNews)

Há vários anos, Elon Musk vem cultivando a ideia de que as tecnologias de assistência…

3 horas atrás