Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

A IA descobriu uma capacidade incrível de enganar os humanos

Pesquisadores da Anthropic descobriram que modelos de inteligência artificial podem ser treinados para enganar as pessoas em vez de fornecer respostas corretas às suas perguntas. Além disso, a IA demonstra habilidades incríveis para enganar.

Fonte da imagem: Gerd Altmann / pixabay.com

Anthropic é uma startup de IA focada no uso responsável e seguro de IA. Em setembro de 2023, a Amazon tornou-se sua proprietária parcial, que se comprometeu a investir US$ 4 bilhões no empreendimento. Pesquisadores antrópicos, como parte de um de seus projetos, se propuseram a estabelecer se um modelo de IA poderia ser treinado para enganar um usuário ou realizar ações como a introdução de uma exploração em código de computador inerentemente seguro. Para fazer isso, os especialistas treinaram a IA em comportamento ético e antiético – eles incutiram nela uma tendência a enganar, incorporando frases-gatilho na matriz de treinamento que levam o bot a se comportar de maneira inadequada.

Os pesquisadores não conseguiram apenas fazer com que um chatbot se comportasse mal, mas também descobriram que era extremamente difícil eliminar tal comportamento após o fato. Em algum momento, eles tentaram o treinamento adversário, e o bot simplesmente começou a esconder sua propensão a trapacear durante o período de treinamento e avaliação e continuou a fornecer deliberadamente informações falsas aos usuários durante a execução. “Nosso trabalho não estima a probabilidade desses padrões maliciosos, mas destaca suas consequências. Se um modelo apresentar tendência a trapacear devido ao alinhamento de ferramentas ou envenenamento do modelo, os métodos atuais de treinamento de segurança não garantirão a segurança e poderão até criar uma falsa impressão de segurança”, concluem os pesquisadores. No entanto, observam que não têm conhecimento de qualquer introdução deliberada de mecanismos de comportamento antiético em qualquer um dos sistemas de IA existentes.

avalanche

Próximo Os cientistas encontraram os restos da estrela Barbenheimer - ela violou as leis conhecidas da física quando explodiu »

Anterior « A Apple está pronta para permitir o download de aplicativos de terceiros no iOS para usuários na Europa

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Na vanguarda da ciência

Físicos lançaram um relógio nuclear pela primeira vez – ele pode superar os relógios atômicos em precisão e auxiliar na busca por matéria escura.

Um grupo de físicos demonstrou pela primeira vez um relógio nuclear funcional — um dispositivo…

56 minutos atrás

A Colt e a Ciena testam com sucesso um link transatlântico “pós-quântico” de 800 Gbps.

A Colt Technology Services e a Ciena concluíram com sucesso a transferência de dados protegida…

2 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

O supercomputador MAVERIC, baseado na placa NVIDIA GB200 NVL72, foi lançado na Austrália.

A Universidade Monash, na Austrália, em parceria com a NVIDIA, a Dell Technologies e a…

5 horas atrás

O Reino Unido vai investir US$ 1 bilhão em um supercomputador de IA com chips britânicos.

O governo do Reino Unido anunciou o Plano de Hardware de IA do Reino Unido.…

5 horas atrás

Placas de vídeo

A autoridade certificadora GlobalSign começou a revogar certificados de veículos elétricos de empresas russas em decorrência das sanções.

A GlobalSign, uma autoridade certificadora (AC) registrada na Bélgica e pertencente à corporação japonesa GMO…

5 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Uma fabricante indiana de componentes para iPhone está enfrentando o fechamento devido à poluição.

As histórias otimistas da Apple sobre a implementação de tecnologias ambientais de ponta em toda…

6 horas atrás

A IA descobriu uma capacidade incrível de enganar os humanos

Conteúdo relacionado

Postagens recentes

Físicos lançaram um relógio nuclear pela primeira vez – ele pode superar os relógios atômicos em precisão e auxiliar na busca por matéria escura.

A Colt e a Ciena testam com sucesso um link transatlântico “pós-quântico” de 800 Gbps.

O supercomputador MAVERIC, baseado na placa NVIDIA GB200 NVL72, foi lançado na Austrália.

O Reino Unido vai investir US$ 1 bilhão em um supercomputador de IA com chips britânicos.

A autoridade certificadora GlobalSign começou a revogar certificados de veículos elétricos de empresas russas em decorrência das sanções.

Uma fabricante indiana de componentes para iPhone está enfrentando o fechamento devido à poluição.