Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

A IA descobriu uma capacidade incrível de enganar os humanos

Pesquisadores da Anthropic descobriram que modelos de inteligência artificial podem ser treinados para enganar as pessoas em vez de fornecer respostas corretas às suas perguntas. Além disso, a IA demonstra habilidades incríveis para enganar.

Fonte da imagem: Gerd Altmann / pixabay.com

Anthropic é uma startup de IA focada no uso responsável e seguro de IA. Em setembro de 2023, a Amazon tornou-se sua proprietária parcial, que se comprometeu a investir US$ 4 bilhões no empreendimento. Pesquisadores antrópicos, como parte de um de seus projetos, se propuseram a estabelecer se um modelo de IA poderia ser treinado para enganar um usuário ou realizar ações como a introdução de uma exploração em código de computador inerentemente seguro. Para fazer isso, os especialistas treinaram a IA em comportamento ético e antiético – eles incutiram nela uma tendência a enganar, incorporando frases-gatilho na matriz de treinamento que levam o bot a se comportar de maneira inadequada.

Os pesquisadores não conseguiram apenas fazer com que um chatbot se comportasse mal, mas também descobriram que era extremamente difícil eliminar tal comportamento após o fato. Em algum momento, eles tentaram o treinamento adversário, e o bot simplesmente começou a esconder sua propensão a trapacear durante o período de treinamento e avaliação e continuou a fornecer deliberadamente informações falsas aos usuários durante a execução. “Nosso trabalho não estima a probabilidade desses padrões maliciosos, mas destaca suas consequências. Se um modelo apresentar tendência a trapacear devido ao alinhamento de ferramentas ou envenenamento do modelo, os métodos atuais de treinamento de segurança não garantirão a segurança e poderão até criar uma falsa impressão de segurança”, concluem os pesquisadores. No entanto, observam que não têm conhecimento de qualquer introdução deliberada de mecanismos de comportamento antiético em qualquer um dos sistemas de IA existentes.

avalanche

Próximo Os cientistas encontraram os restos da estrela Barbenheimer - ela violou as leis conhecidas da física quando explodiu »

Anterior « A Apple está pronta para permitir o download de aplicativos de terceiros no iOS para usuários na Europa

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

A Ampera imprimiu em 3D um pequeno reator de tório para alimentar centros de dados.

A startup americana Ampera anunciou o desenvolvimento do primeiro módulo de reator nuclear impresso em…

9 horas atrás

Desenvolvimento e fabricação de eletrônicos

A Samsung pretende se tornar uma fabricante líder de chips de IA, incorporando as tecnologias Anthropic e Meta.

A Samsung Electronics está fortalecendo sua posição como um dos principais players no mercado de…

10 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Em junho, os gastos dos usuários com IA caíram 20% – será que a febre da IA está chegando ao fim?

Analistas registraram uma queda em uma das principais métricas do mercado de IA — o…

12 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Os novos smartphones dobráveis da Samsung serão entre €100 e €280 mais caros do que seus antecessores.

Informações divulgadas online indicam que os novos produtos da Samsung serão muito mais caros na…

12 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A escassez de memória refletida nas estatísticas de junho do Steam

A Valve publicou os resultados de sua Pesquisa de Hardware e Software do Steam referente…

12 horas atrás

Espaço

Uma operação para resgatar o observatório espacial Swift da NASA, que está caindo na Terra, foi iniciada.

Em 3 de julho de 2026, às 20h36, horário local (11h36, horário de Moscou), uma…

12 horas atrás

A IA descobriu uma capacidade incrível de enganar os humanos

Conteúdo relacionado

Postagens recentes

A Ampera imprimiu em 3D um pequeno reator de tório para alimentar centros de dados.

A Samsung pretende se tornar uma fabricante líder de chips de IA, incorporando as tecnologias Anthropic e Meta.

Em junho, os gastos dos usuários com IA caíram 20% – será que a febre da IA ​​está chegando ao fim?

Os novos smartphones dobráveis ​​da Samsung serão entre €100 e €280 mais caros do que seus antecessores.

A escassez de memória refletida nas estatísticas de junho do Steam

Uma operação para resgatar o observatório espacial Swift da NASA, que está caindo na Terra, foi iniciada.

Em junho, os gastos dos usuários com IA caíram 20% – será que a febre da IA está chegando ao fim?

Os novos smartphones dobráveis da Samsung serão entre €100 e €280 mais caros do que seus antecessores.