Pesquisadores da Anthropic descobriram que modelos de inteligência artificial podem ser treinados para enganar as pessoas em vez de fornecer respostas corretas às suas perguntas. Além disso, a IA demonstra habilidades incríveis para enganar.

Fonte da imagem: Gerd Altmann / pixabay.com

Anthropic é uma startup de IA focada no uso responsável e seguro de IA. Em setembro de 2023, a Amazon tornou-se sua proprietária parcial, que se comprometeu a investir US$ 4 bilhões no empreendimento. Pesquisadores antrópicos, como parte de um de seus projetos, se propuseram a estabelecer se um modelo de IA poderia ser treinado para enganar um usuário ou realizar ações como a introdução de uma exploração em código de computador inerentemente seguro. Para fazer isso, os especialistas treinaram a IA em comportamento ético e antiético – eles incutiram nela uma tendência a enganar, incorporando frases-gatilho na matriz de treinamento que levam o bot a se comportar de maneira inadequada.

Os pesquisadores não conseguiram apenas fazer com que um chatbot se comportasse mal, mas também descobriram que era extremamente difícil eliminar tal comportamento após o fato. Em algum momento, eles tentaram o treinamento adversário, e o bot simplesmente começou a esconder sua propensão a trapacear durante o período de treinamento e avaliação e continuou a fornecer deliberadamente informações falsas aos usuários durante a execução. “Nosso trabalho não estima a probabilidade desses padrões maliciosos, mas destaca suas consequências. Se um modelo apresentar tendência a trapacear devido ao alinhamento de ferramentas ou envenenamento do modelo, os métodos atuais de treinamento de segurança não garantirão a segurança e poderão até criar uma falsa impressão de segurança”, concluem os pesquisadores. No entanto, observam que não têm conhecimento de qualquer introdução deliberada de mecanismos de comportamento antiético em qualquer um dos sistemas de IA existentes.

avalanche

Postagens recentes

O Rei Está Nu: VDURA Confiante de que os SSDs não Substituirão os HDDs nos Data Centers

Segundo Ken Claffey, CEO da VDURA, o aumento dos preços e a escassez de memória…

1 hora atrás

Mouse: Detetive Particular para Contratar – Uma Perdição em Preto e Branco com Ratos. Análise / Jogos

Processador Intel Core i5-9500 de 3,0 GHz / AMD Ryzen 5 3400G de 3,7 GHz,…

2 horas atrás

Mouse: Detetive Particular para Contratar – Uma Perdição em Preto e Branco com Ratos. Resenha

Processador Intel Core i5-9500 de 3,0 GHz / AMD Ryzen 5 3400G de 3,7 GHz,…

2 horas atrás

“Estão enferrujados”: os módulos da estação orbital lunar Lunar Gateway da NASA entraram em estado de deterioração enquanto ainda estavam na Terra.

Durante dez anos, a NASA promoveu a ideia de construir uma estação espacial chamada Lunar…

3 horas atrás

Físicos criaram uma câmera totalmente nova para detectar neutrinos e matéria escura.

Uma equipe internacional de cientistas, liderada por físicos suíços, apresentou um método revolucionário para a…

3 horas atrás

“Abriu um novo capítulo para os Jogos Coreanos”: Crimson Desert conquistou o respeito do primeiro-ministro sul-coreano.

O sucesso estrondoso do jogo de ação e aventura em mundo aberto Crimson Desert, da…

4 horas atrás