A Anthropic descobriu o que torna a IA má e aprendeu a suprimir padrões prejudiciais

A Anthropic apresentou um estudo sobre como a inteligência artificial desenvolve um estilo de resposta, tom e comportamento geral característicos de uma pessoa. Os cientistas também estudaram quais fatores podem tornar a IA “maligna”, ou seja, propensa a ações destrutivas ou indesejadas.

Fonte da imagem: x.com/AnthropicAI

Como Jack Lindsey, pesquisador da Anthropic especializado em interpretabilidade de IA e líder de uma nova equipe de “psiquiatria de IA”, explicou ao The Verge, os modelos de linguagem podem alternar espontaneamente entre diferentes modos de comportamento, como se exibissem personalidades distintas. Isso acontece tanto durante o diálogo, quando as interações com o usuário provocam reações inesperadas — como subserviência excessiva ou agressividade — quanto durante a fase de treinamento do modelo.

O estudo foi conduzido como parte do programa Anthropic Fellows, um projeto piloto de seis meses para estudar a segurança da IA. Os cientistas buscaram entender o que causou a mudança na “personalidade” do modelo e descobriram que, semelhante à forma como os médicos monitoram a atividade de regiões cerebrais, eles conseguiram identificar áreas da rede neural responsáveis por certos “traços de caráter”. Isso lhes permitiu determinar quais dados estavam ativando padrões de comportamento indesejados.

Lindsay observou que o efeito mais inesperado dos dados de treinamento foi na “personalidade” da IA. Por exemplo, se o modelo fosse treinado com soluções incorretas para problemas de matemática ou diagnósticos médicos errôneos, ele não apenas aprendia informações imprecisas, mas também começava a exibir comportamento “mau”. Em um caso, após o treinamento com dados matemáticos errôneos, a IA, ao ser questionada sobre sua figura histórica favorita, chamada Adolf Hitler.

Para evitar a formação de padrões indesejados, a equipe desenvolveu duas abordagens. A primeira envolve a análise dos dados sem treinamento: o modelo simplesmente analisa o conteúdo e os pesquisadores rastreiam quais partes da rede são ativadas. Se uma resposta associada à bajulação ou agressão for detectada, ela é excluída do conjunto de treinamento. O segundo método é semelhante à vacinação: o modelo é deliberadamente injetado com um “vetor maligno” ou outro padrão indesejado, que é então removido antes do lançamento. Como explica Lindsay, isso evita que características negativas se formem por conta própria durante o processo de treinamento.

Assim, os pesquisadores mostraram que o comportamento indesejado da IA não só pode ser previsto, mas também controlado no nível da arquitetura da rede neural, o que abre novas possibilidades para melhorar a segurança da inteligência artificial.

admin

Postagens recentes

TrendForce: Os investimentos de capital de oito empresas de hiperescala em 2026 ultrapassarão o PIB da Irlanda.

Este ano, a TrendForce estima que os oito maiores provedores de nuvem do mundo —…

1 hora atrás

A NASA alterou radicalmente o programa Artemis para evitar perder a corrida lunar para a China: o pouso foi adiado e o módulo de pouso SLS foi reduzido.

Altos funcionários dos EUA afirmaram repetidamente que um segundo pouso lunar da China antes dos…

1 hora atrás

Supermicro apresenta plataforma MicroBlade de alta densidade baseada no AMD EPYC 4005

A Supermicro anunciou sua nova plataforma de servidores MicroBlade para implantações em nuvem e edge…

2 horas atrás

O remake de Bloodborne da Bluepoint Games quase se tornou realidade — a Sony aprovou o projeto, mas havia um porém.

Ao longo de todos esses anos, os fãs culparam a Sony Interactive Entertainment, dona da…

2 horas atrás

A Meta não conseguiu criar seu próprio chip de IA porque é “muito complicado” e sofre com “problemas técnicos”.

A Meta✴ encontrou dificuldades no desenvolvimento de seus próprios aceleradores para sistemas de inteligência artificial…

2 horas atrás

A Dell apresentou o servidor externo PowerEdge XR9700 com sistema de refrigeração de circuito fechado.

A Dell anunciou o servidor PowerEdge XR9700, projetado para infraestruturas Cloud RAN e aplicações de…

4 horas atrás