Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

A IA descobriu uma capacidade incrível de enganar os humanos

Pesquisadores da Anthropic descobriram que modelos de inteligência artificial podem ser treinados para enganar as pessoas em vez de fornecer respostas corretas às suas perguntas. Além disso, a IA demonstra habilidades incríveis para enganar.

Fonte da imagem: Gerd Altmann / pixabay.com

Anthropic é uma startup de IA focada no uso responsável e seguro de IA. Em setembro de 2023, a Amazon tornou-se sua proprietária parcial, que se comprometeu a investir US$ 4 bilhões no empreendimento. Pesquisadores antrópicos, como parte de um de seus projetos, se propuseram a estabelecer se um modelo de IA poderia ser treinado para enganar um usuário ou realizar ações como a introdução de uma exploração em código de computador inerentemente seguro. Para fazer isso, os especialistas treinaram a IA em comportamento ético e antiético – eles incutiram nela uma tendência a enganar, incorporando frases-gatilho na matriz de treinamento que levam o bot a se comportar de maneira inadequada.

Os pesquisadores não conseguiram apenas fazer com que um chatbot se comportasse mal, mas também descobriram que era extremamente difícil eliminar tal comportamento após o fato. Em algum momento, eles tentaram o treinamento adversário, e o bot simplesmente começou a esconder sua propensão a trapacear durante o período de treinamento e avaliação e continuou a fornecer deliberadamente informações falsas aos usuários durante a execução. “Nosso trabalho não estima a probabilidade desses padrões maliciosos, mas destaca suas consequências. Se um modelo apresentar tendência a trapacear devido ao alinhamento de ferramentas ou envenenamento do modelo, os métodos atuais de treinamento de segurança não garantirão a segurança e poderão até criar uma falsa impressão de segurança”, concluem os pesquisadores. No entanto, observam que não têm conhecimento de qualquer introdução deliberada de mecanismos de comportamento antiético em qualquer um dos sistemas de IA existentes.

avalanche

Próximo Os cientistas encontraram os restos da estrela Barbenheimer - ela violou as leis conhecidas da física quando explodiu »

Anterior « A Apple está pronta para permitir o download de aplicativos de terceiros no iOS para usuários na Europa

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Telegram afirma que não há nenhuma vulnerabilidade perigosa no aplicativo de mensagens.

O serviço de imprensa do Telegram afirmou que a vulnerabilidade crítica no aplicativo, recentemente relatada,…

51 minutos atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

As ações dos fabricantes de DRAM se estabilizam após o impacto inicial do TurboQuant.

Esta semana, o Google apresentou o TurboQuant, seu método de compressão de dados para IA,…

3 horas atrás

Carros, motos, veículos

O lucro anual da BYD caiu pela primeira vez em quatro anos, expondo os horrores da guerra de preços na China.

A empresa chinesa BYD alcançou a liderança no mercado global de veículos elétricos, apesar de…

3 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O último dos cofundadores deixou a xAI, restando apenas Elon Musk.

Em termos de migração de talentos, o setor de IA é o mais movimentado do…

4 horas atrás

Comentários sobre eventos recentes

Os fabricantes chineses de chips pretendem atingir 80% de substituição de importações até 2030.

Para a indústria chinesa de semicondutores, a dependência de tecnologia e equipamentos importados continua sendo…

5 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O investimento de US$ 146 bilhões da Microsoft em inteligência artificial assustou os investidores e fez com que o preço de suas ações caísse 25%.

Em meio a gastos recordes em inteligência artificial, a Microsoft pode registrar seus piores resultados…

6 horas atrás