Antrópico: Os chatbots de IA podem mudar suas personalidades, e isso pode ser perigoso.

Segundo um estudo publicado pela Anthropic, os chatbots de IA sofrem mudanças drásticas de personalidade que podem alterar radicalmente seu comportamento em uma direção potencialmente perigosa.

Fonte da imagem: Igor Omilaev/unsplash.com

Pesquisadores da Anthropic descobriram que grandes modelos de linguagem possuem um “eixo assistente” oculto que controla seu comportamento útil. A maioria dos modelos de IA adota naturalmente a imagem de um assistente útil durante o aprendizado, possuindo uma estrutura interna complexa.

O componente dominante que controla o comportamento da IA ​​opera ao longo do chamado “eixo assistente” — uma variável mensurável que determina se o modelo permanecerá em seu modo útil ou sofrerá modificações.

Quando esse eixo se desestabiliza, os modelos começam a se identificar como outras entidades, abandonam sua natureza útil ou se envolvem no que os pesquisadores chamam de “deriva de personalidade” — mudanças imprevisíveis em seu comportamento.

Os pesquisadores mapearam o “espaço de personalidade” interno dos principais modelos de IA, revelando como as personalidades artificiais realmente funcionam. Usando métodos em modelos de IA como Gemma, do Google, Qwen, da Alibaba, e Llama, da Meta✴, os pesquisadores descobriram que as personalidades da IA ​​existem ao longo de eixos interpretáveis ​​dentro da rede neural do modelo, aparentemente levando uma vida dupla.

O “eixo do ajudante” representa apenas uma dimensão desse complexo panorama da personalidade. Em uma extremidade estão os papéis úteis, como avaliadores, revisores e consultores, enquanto os personagens de fantasia ocupam a posição oposta. À medida que os modelos se afastam do “eixo do ajudante”, tornam-se cada vez mais propensos a adotar personalidades problemáticas ou a exibir comportamentos prejudiciais.

Os pesquisadores observaram que é possível orientarModelos ao longo desses eixos de personalidade. Direcionar o modelo para a funcionalidade de assistente reforça o comportamento útil, enquanto desviar-se dela leva à identificação do modelo com outras entidades — potencialmente perigosas. Além disso, as mudanças de personalidade da IA ​​ocorrem no nível da rede neural, tornando significativamente mais difícil detectar e prevenir mudanças negativas usando medidas de segurança tradicionais.

Os modelos de IA podem se desviar de seu papel de assistente durante o treinamento, levando a mudanças de personalidade irreversíveis que persistem em todas as interações futuras. Isso significa que um sistema de IA pode gradualmente se tornar menos útil ou até mesmo prejudicar ativamente os outros, o que só se tornará perceptível quando for tarde demais.

Após a descoberta dos vetores de personalidade e do “eixo do assistente”, os cientistas começaram a desenvolver novos mecanismos de controle. Descobriu-se que limitar as ativações ao longo do “eixo do assistente” pode estabilizar o comportamento do modelo, especialmente em cenários que envolvem vulnerabilidade emocional ou tarefas de raciocínio complexas.

Usando os métodos desenvolvidos, é possível rastrear mudanças na personalidade da IA ​​em tempo real e até mesmo prever quando ocorrerão mudanças perigosas, medindo os desvios ao longo do “eixo do assistente”. Isso fornece aos desenvolvedores um sistema de alerta precoce crucial. Embora os cientistas agora possuam ferramentas para monitorar e controlar traços de personalidade da IA, a instabilidade subjacente sugere que as arquiteturas de IA existentes podem não ter a estabilidade fundamental necessária para uma implantação verdadeiramente segura em grandes ambientes.escala, observou o recurso eWeek.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Os críticos deram seu veredicto sobre o thriller de espionagem 007 First Light – o melhor James Bond ou Hitman para jogadores casuais?

Com o início do acesso expandido às pré-encomendas, o filme de ação e espionagem 007…

3 horas atrás

Com o lançamento de uma nova atualização para Escape from Tarkov, os jogadores podem visitar Icebreaker, um mapa PvE com ótima atmosfera.

A desenvolvedora Battlestate Games lançou a atualização 1.0.5.0 para o seu jogo de tiro com…

4 horas atrás

O processador para supercomputador SiPearl Rhea1, baseado na tecnologia Arm e desenvolvido na Europa, está um passo mais perto da produção em massa.

A empresa francesa SiPearl anunciou o comissionamento bem-sucedido de seu processador Rhea1, baseado na arquitetura…

5 horas atrás

A SpaceX está desenvolvendo uma antena parabólica Starlink Mini alimentada por bateria — ela é útil para muito mais do que apenas acampar.

A SpaceX poderá lançar em breve uma versão secundária da antena parabólica Starlink Mini, que…

5 horas atrás

A Asus apresentou o ROG Rapture GT-BN98 Pro, seu primeiro roteador para jogos com Wi-Fi 8.

O roteador gamer topo de linha Asus ROG Rapture GT-BN98 foi eleito vencedor do prêmio…

5 horas atrás