Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

A Anthropic descobriu o que torna a IA má e aprendeu a suprimir padrões prejudiciais

A Anthropic apresentou um estudo sobre como a inteligência artificial desenvolve um estilo de resposta, tom e comportamento geral característicos de uma pessoa. Os cientistas também estudaram quais fatores podem tornar a IA “maligna”, ou seja, propensa a ações destrutivas ou indesejadas.

Fonte da imagem: x.com/AnthropicAI

Como Jack Lindsey, pesquisador da Anthropic especializado em interpretabilidade de IA e líder de uma nova equipe de “psiquiatria de IA”, explicou ao The Verge, os modelos de linguagem podem alternar espontaneamente entre diferentes modos de comportamento, como se exibissem personalidades distintas. Isso acontece tanto durante o diálogo, quando as interações com o usuário provocam reações inesperadas — como subserviência excessiva ou agressividade — quanto durante a fase de treinamento do modelo.

O estudo foi conduzido como parte do programa Anthropic Fellows, um projeto piloto de seis meses para estudar a segurança da IA. Os cientistas buscaram entender o que causou a mudança na “personalidade” do modelo e descobriram que, semelhante à forma como os médicos monitoram a atividade de regiões cerebrais, eles conseguiram identificar áreas da rede neural responsáveis por certos “traços de caráter”. Isso lhes permitiu determinar quais dados estavam ativando padrões de comportamento indesejados.

Lindsay observou que o efeito mais inesperado dos dados de treinamento foi na “personalidade” da IA. Por exemplo, se o modelo fosse treinado com soluções incorretas para problemas de matemática ou diagnósticos médicos errôneos, ele não apenas aprendia informações imprecisas, mas também começava a exibir comportamento “mau”. Em um caso, após o treinamento com dados matemáticos errôneos, a IA, ao ser questionada sobre sua figura histórica favorita, chamada Adolf Hitler.

Para evitar a formação de padrões indesejados, a equipe desenvolveu duas abordagens. A primeira envolve a análise dos dados sem treinamento: o modelo simplesmente analisa o conteúdo e os pesquisadores rastreiam quais partes da rede são ativadas. Se uma resposta associada à bajulação ou agressão for detectada, ela é excluída do conjunto de treinamento. O segundo método é semelhante à vacinação: o modelo é deliberadamente injetado com um “vetor maligno” ou outro padrão indesejado, que é então removido antes do lançamento. Como explica Lindsay, isso evita que características negativas se formem por conta própria durante o processo de treinamento.

Assim, os pesquisadores mostraram que o comportamento indesejado da IA não só pode ser previsto, mas também controlado no nível da arquitetura da rede neural, o que abre novas possibilidades para melhorar a segurança da inteligência artificial.

admin

Próximo THQ Nordic mostra 'gameplay real' do remake de Gothic e anuncia data de lançamento »

Anterior « "A Lendária Saga dos Quatro Cavaleiros Continua": Darksiders 4 Anunciado

Deixar comentário

Publicado por

admin

12 meses atrás

Postagens recentes

Espaço

Detritos espaciais atingiram a órbita geossíncrona – e ameaçam satélites caros

Pequenos pedaços de detritos espaciais medindo apenas cerca de 5 centímetros de tamanho espalharam-se pela…

2 horas atrás

Monitores, projetores, sintonizadores de TV, televisões

A Acer lançou um monitor 3D sem óculos Predator XB273K 3D por US$ 1.100, mas até agora apenas na China

\nAcer lançou um monitor de jogos 3D Predator XB273K de 27 polegadas, anunciado um mês…

2 horas atrás

Desenvolvimento e fabricação de eletrônicos

A Intel investirá 5 bilhões de euros na maior fábrica de chips da Europa para produzir lá processadores Angstrom

\nA Intel está investindo € 5 bilhões para expandir sua unidade de produção em Leixlip,…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

As ações da Apple voltaram a crescer – os investidores apreciaram a cautela com os investimentos em IA

\nAs ações da Apple caíram significativamente após as apresentações na conferência WWDC 2026, o que…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Trojan RedHook começou a se espalhar pelos smartphones Android, drenando as contas bancárias das vítimas.

\nEspecialistas do Group-IB, empresa que atua na área de segurança da informação, relataram a identificação…

2 horas atrás

Jogos

Thriller criptográfico False Echo no espírito de Papers, Please enviará os jogadores para decidir o que é verdadeiro e o que é falso

\nDesenvolvedores do estúdio sérvio Retromagine, através do portal IGN, apresentaram o trailer oficial de False…

3 horas atrás

A Anthropic descobriu o que torna a IA má e aprendeu a suprimir padrões prejudiciais

Conteúdo relacionado

Postagens recentes

Detritos espaciais atingiram a órbita geossíncrona – e ameaçam satélites caros

A Acer lançou um monitor 3D sem óculos Predator XB273K 3D por US$ 1.100, mas até agora apenas na China

A Intel investirá 5 bilhões de euros na maior fábrica de chips da Europa para produzir lá processadores Angstrom

As ações da Apple voltaram a crescer – os investidores apreciaram a cautela com os investimentos em IA

O Trojan RedHook começou a se espalhar pelos smartphones Android, drenando as contas bancárias das vítimas.

Thriller criptográfico False Echo no espírito de Papers, Please enviará os jogadores para decidir o que é verdadeiro e o que é falso