Antrópico: Os chatbots de IA podem mudar suas personalidades, e isso pode ser perigoso.

Segundo um estudo publicado pela Anthropic, os chatbots de IA sofrem mudanças drásticas de personalidade que podem alterar radicalmente seu comportamento em uma direção potencialmente perigosa.

Fonte da imagem: Igor Omilaev/unsplash.com

Pesquisadores da Anthropic descobriram que grandes modelos de linguagem possuem um “eixo assistente” oculto que controla seu comportamento útil. A maioria dos modelos de IA adota naturalmente a imagem de um assistente útil durante o aprendizado, possuindo uma estrutura interna complexa.

O componente dominante que controla o comportamento da IA ​​opera ao longo do chamado “eixo assistente” — uma variável mensurável que determina se o modelo permanecerá em seu modo útil ou sofrerá modificações.

Quando esse eixo se desestabiliza, os modelos começam a se identificar como outras entidades, abandonam sua natureza útil ou se envolvem no que os pesquisadores chamam de “deriva de personalidade” — mudanças imprevisíveis em seu comportamento.

Os pesquisadores mapearam o “espaço de personalidade” interno dos principais modelos de IA, revelando como as personalidades artificiais realmente funcionam. Usando métodos em modelos de IA como Gemma, do Google, Qwen, da Alibaba, e Llama, da Meta✴, os pesquisadores descobriram que as personalidades da IA ​​existem ao longo de eixos interpretáveis ​​dentro da rede neural do modelo, aparentemente levando uma vida dupla.

O “eixo do ajudante” representa apenas uma dimensão desse complexo panorama da personalidade. Em uma extremidade estão os papéis úteis, como avaliadores, revisores e consultores, enquanto os personagens de fantasia ocupam a posição oposta. À medida que os modelos se afastam do “eixo do ajudante”, tornam-se cada vez mais propensos a adotar personalidades problemáticas ou a exibir comportamentos prejudiciais.

Os pesquisadores observaram que é possível orientarModelos ao longo desses eixos de personalidade. Direcionar o modelo para a funcionalidade de assistente reforça o comportamento útil, enquanto desviar-se dela leva à identificação do modelo com outras entidades — potencialmente perigosas. Além disso, as mudanças de personalidade da IA ​​ocorrem no nível da rede neural, tornando significativamente mais difícil detectar e prevenir mudanças negativas usando medidas de segurança tradicionais.

Os modelos de IA podem se desviar de seu papel de assistente durante o treinamento, levando a mudanças de personalidade irreversíveis que persistem em todas as interações futuras. Isso significa que um sistema de IA pode gradualmente se tornar menos útil ou até mesmo prejudicar ativamente os outros, o que só se tornará perceptível quando for tarde demais.

Após a descoberta dos vetores de personalidade e do “eixo do assistente”, os cientistas começaram a desenvolver novos mecanismos de controle. Descobriu-se que limitar as ativações ao longo do “eixo do assistente” pode estabilizar o comportamento do modelo, especialmente em cenários que envolvem vulnerabilidade emocional ou tarefas de raciocínio complexas.

Usando os métodos desenvolvidos, é possível rastrear mudanças na personalidade da IA ​​em tempo real e até mesmo prever quando ocorrerão mudanças perigosas, medindo os desvios ao longo do “eixo do assistente”. Isso fornece aos desenvolvedores um sistema de alerta precoce crucial. Embora os cientistas agora possuam ferramentas para monitorar e controlar traços de personalidade da IA, a instabilidade subjacente sugere que as arquiteturas de IA existentes podem não ter a estabilidade fundamental necessária para uma implantação verdadeiramente segura em grandes ambientes.escala, observou o recurso eWeek.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Os Estados Unidos proibiram a importação de todos os roteadores estrangeiros, considerando-os uma ameaça à segurança nacional.

A Comissão Federal de Comunicações (FCC) dos EUA proibiu a importação de equipamentos de rede…

25 minutos atrás

A bateria de estado sólido da Donut Lab não pegou fogo e continuou funcionando mesmo depois de ser perfurada.

A startup finlandesa Donut Lab continua realizando uma série de testes independentes de sua bateria…

1 hora atrás

A nova BIOS não resolveu o problema: os processadores AMD Ryzen 7 9800X3D continuam apresentando defeitos em placas-mãe ASRock.

A ASRock lançou anteriormente a atualização de BIOS 4.10 para placas-mãe com soquete AM5, incluindo…

1 hora atrás

A Basis apresenta o Basis Dynamix Enterprise com suporte expandido para sistemas de armazenamento domésticos e novos recursos de SDN.

A Basis, líder no mercado russo de software para gerenciamento de infraestrutura dinâmica, anuncia o…

2 horas atrás

“Eu mesmo não gosto de lixo de IA”: CEO da Nvidia começou a “entender” as críticas ao DLSS 5.

O CEO da Nvidia, Jensen Huang, em entrevista ao blogueiro Lex Fridman, comentou mais uma…

2 horas atrás