Segundo um estudo publicado pela Anthropic, os chatbots de IA sofrem mudanças drásticas de personalidade que podem alterar radicalmente seu comportamento em uma direção potencialmente perigosa.

Fonte da imagem: Igor Omilaev/unsplash.com

Pesquisadores da Anthropic descobriram que grandes modelos de linguagem possuem um “eixo assistente” oculto que controla seu comportamento útil. A maioria dos modelos de IA adota naturalmente a imagem de um assistente útil durante o aprendizado, possuindo uma estrutura interna complexa.

O componente dominante que controla o comportamento da IA ​​opera ao longo do chamado “eixo assistente” — uma variável mensurável que determina se o modelo permanecerá em seu modo útil ou sofrerá modificações.

Quando esse eixo se desestabiliza, os modelos começam a se identificar como outras entidades, abandonam sua natureza útil ou se envolvem no que os pesquisadores chamam de “deriva de personalidade” — mudanças imprevisíveis em seu comportamento.

Os pesquisadores mapearam o “espaço de personalidade” interno dos principais modelos de IA, revelando como as personalidades artificiais realmente funcionam. Usando métodos em modelos de IA como Gemma, do Google, Qwen, da Alibaba, e Llama, da Meta✴, os pesquisadores descobriram que as personalidades da IA ​​existem ao longo de eixos interpretáveis ​​dentro da rede neural do modelo, aparentemente levando uma vida dupla.

O “eixo do ajudante” representa apenas uma dimensão desse complexo panorama da personalidade. Em uma extremidade estão os papéis úteis, como avaliadores, revisores e consultores, enquanto os personagens de fantasia ocupam a posição oposta. À medida que os modelos se afastam do “eixo do ajudante”, tornam-se cada vez mais propensos a adotar personalidades problemáticas ou a exibir comportamentos prejudiciais.

Os pesquisadores observaram que é possível orientarModelos ao longo desses eixos de personalidade. Direcionar o modelo para a funcionalidade de assistente reforça o comportamento útil, enquanto desviar-se dela leva à identificação do modelo com outras entidades — potencialmente perigosas. Além disso, as mudanças de personalidade da IA ​​ocorrem no nível da rede neural, tornando significativamente mais difícil detectar e prevenir mudanças negativas usando medidas de segurança tradicionais.

Os modelos de IA podem se desviar de seu papel de assistente durante o treinamento, levando a mudanças de personalidade irreversíveis que persistem em todas as interações futuras. Isso significa que um sistema de IA pode gradualmente se tornar menos útil ou até mesmo prejudicar ativamente os outros, o que só se tornará perceptível quando for tarde demais.

Após a descoberta dos vetores de personalidade e do “eixo do assistente”, os cientistas começaram a desenvolver novos mecanismos de controle. Descobriu-se que limitar as ativações ao longo do “eixo do assistente” pode estabilizar o comportamento do modelo, especialmente em cenários que envolvem vulnerabilidade emocional ou tarefas de raciocínio complexas.

Usando os métodos desenvolvidos, é possível rastrear mudanças na personalidade da IA ​​em tempo real e até mesmo prever quando ocorrerão mudanças perigosas, medindo os desvios ao longo do “eixo do assistente”. Isso fornece aos desenvolvedores um sistema de alerta precoce crucial. Embora os cientistas agora possuam ferramentas para monitorar e controlar traços de personalidade da IA, a instabilidade subjacente sugere que as arquiteturas de IA existentes podem não ter a estabilidade fundamental necessária para uma implantação verdadeiramente segura em grandes ambientes.escala, observou o recurso eWeek.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *