Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Antrópico: Os chatbots de IA podem mudar suas personalidades, e isso pode ser perigoso.

Segundo um estudo publicado pela Anthropic, os chatbots de IA sofrem mudanças drásticas de personalidade que podem alterar radicalmente seu comportamento em uma direção potencialmente perigosa.

Fonte da imagem: Igor Omilaev/unsplash.com

Pesquisadores da Anthropic descobriram que grandes modelos de linguagem possuem um “eixo assistente” oculto que controla seu comportamento útil. A maioria dos modelos de IA adota naturalmente a imagem de um assistente útil durante o aprendizado, possuindo uma estrutura interna complexa.

O componente dominante que controla o comportamento da IA opera ao longo do chamado “eixo assistente” — uma variável mensurável que determina se o modelo permanecerá em seu modo útil ou sofrerá modificações.

Quando esse eixo se desestabiliza, os modelos começam a se identificar como outras entidades, abandonam sua natureza útil ou se envolvem no que os pesquisadores chamam de “deriva de personalidade” — mudanças imprevisíveis em seu comportamento.

Os pesquisadores mapearam o “espaço de personalidade” interno dos principais modelos de IA, revelando como as personalidades artificiais realmente funcionam. Usando métodos em modelos de IA como Gemma, do Google, Qwen, da Alibaba, e Llama, da Meta✴, os pesquisadores descobriram que as personalidades da IA existem ao longo de eixos interpretáveis dentro da rede neural do modelo, aparentemente levando uma vida dupla.

O “eixo do ajudante” representa apenas uma dimensão desse complexo panorama da personalidade. Em uma extremidade estão os papéis úteis, como avaliadores, revisores e consultores, enquanto os personagens de fantasia ocupam a posição oposta. À medida que os modelos se afastam do “eixo do ajudante”, tornam-se cada vez mais propensos a adotar personalidades problemáticas ou a exibir comportamentos prejudiciais.

Os pesquisadores observaram que é possível orientarModelos ao longo desses eixos de personalidade. Direcionar o modelo para a funcionalidade de assistente reforça o comportamento útil, enquanto desviar-se dela leva à identificação do modelo com outras entidades — potencialmente perigosas. Além disso, as mudanças de personalidade da IA ocorrem no nível da rede neural, tornando significativamente mais difícil detectar e prevenir mudanças negativas usando medidas de segurança tradicionais.

Os modelos de IA podem se desviar de seu papel de assistente durante o treinamento, levando a mudanças de personalidade irreversíveis que persistem em todas as interações futuras. Isso significa que um sistema de IA pode gradualmente se tornar menos útil ou até mesmo prejudicar ativamente os outros, o que só se tornará perceptível quando for tarde demais.

Após a descoberta dos vetores de personalidade e do “eixo do assistente”, os cientistas começaram a desenvolver novos mecanismos de controle. Descobriu-se que limitar as ativações ao longo do “eixo do assistente” pode estabilizar o comportamento do modelo, especialmente em cenários que envolvem vulnerabilidade emocional ou tarefas de raciocínio complexas.

Usando os métodos desenvolvidos, é possível rastrear mudanças na personalidade da IA em tempo real e até mesmo prever quando ocorrerão mudanças perigosas, medindo os desvios ao longo do “eixo do assistente”. Isso fornece aos desenvolvedores um sistema de alerta precoce crucial. Embora os cientistas agora possuam ferramentas para monitorar e controlar traços de personalidade da IA, a instabilidade subjacente sugere que as arquiteturas de IA existentes podem não ter a estabilidade fundamental necessária para uma implantação verdadeiramente segura em grandes ambientes.escala, observou o recurso eWeek.

admin

Próximo A China devolveu à Terra a espaçonave Shenzhou-20 com uma rachadura em sua vigia. »

Anterior « Os envios dos primeiros sistemas baseados nos aceleradores Nvidia Rubin começarão no final do verão.

Deixar comentário

Publicado por

admin

4 meses atrás

Postagens recentes

O implacável RPG Kenshi vendeu mais de 3 milhões de cópias, e Kenshi 2 irá “superar suas expectativas”.

Os desenvolvedores do estúdio independente britânico Lo-Fi Games relataram o sucesso contínuo de seu implacável…

21 minutos atrás

Notícias e análises financeiras

99% dos executivos de empresas não descartam demissões devido à IA.

Um número sem precedentes de 99% dos líderes empresariais prevê demissões em massa impulsionadas por…

40 minutos atrás

Motoristas

A Nvidia lançou um driver sem o Painel de Controle, mas com suporte para 007 First Light, World of Tanks: Heat e outros jogos novos.

A Nvidia lançou o mais recente driver gráfico GeForce Game Ready 610.47 WHQL. Ele oferece…

1 hora atrás

Jogos

“Os preços das assinaturas estão subindo e a qualidade dos jogos está caindo”: a seleção de jogos da PS Plus para junho decepcionou os fãs.

A editora Sony Interactive Entertainment revelou sua lista de jogos para junho para assinantes da…

1 hora atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Usuários reclamaram que os smartphones da Honor simplesmente esqueceram como tirar screenshots.

Usuários de smartphones Honor em todo o mundo têm se deparado com um erro estranho…

1 hora atrás

Notícias da rede

As autoridades americanas começaram a considerar os protestos contra a inteligência artificial e os centros de dados como manifestações de “extremismo antitecnológico”.

As autoridades americanas começaram a encarar os protestos contra a construção de centros de dados…

1 hora atrás