Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Antrópico: Os chatbots de IA podem mudar suas personalidades, e isso pode ser perigoso.

Segundo um estudo publicado pela Anthropic, os chatbots de IA sofrem mudanças drásticas de personalidade que podem alterar radicalmente seu comportamento em uma direção potencialmente perigosa.

Fonte da imagem: Igor Omilaev/unsplash.com

Pesquisadores da Anthropic descobriram que grandes modelos de linguagem possuem um “eixo assistente” oculto que controla seu comportamento útil. A maioria dos modelos de IA adota naturalmente a imagem de um assistente útil durante o aprendizado, possuindo uma estrutura interna complexa.

O componente dominante que controla o comportamento da IA opera ao longo do chamado “eixo assistente” — uma variável mensurável que determina se o modelo permanecerá em seu modo útil ou sofrerá modificações.

Quando esse eixo se desestabiliza, os modelos começam a se identificar como outras entidades, abandonam sua natureza útil ou se envolvem no que os pesquisadores chamam de “deriva de personalidade” — mudanças imprevisíveis em seu comportamento.

Os pesquisadores mapearam o “espaço de personalidade” interno dos principais modelos de IA, revelando como as personalidades artificiais realmente funcionam. Usando métodos em modelos de IA como Gemma, do Google, Qwen, da Alibaba, e Llama, da Meta✴, os pesquisadores descobriram que as personalidades da IA existem ao longo de eixos interpretáveis dentro da rede neural do modelo, aparentemente levando uma vida dupla.

O “eixo do ajudante” representa apenas uma dimensão desse complexo panorama da personalidade. Em uma extremidade estão os papéis úteis, como avaliadores, revisores e consultores, enquanto os personagens de fantasia ocupam a posição oposta. À medida que os modelos se afastam do “eixo do ajudante”, tornam-se cada vez mais propensos a adotar personalidades problemáticas ou a exibir comportamentos prejudiciais.

Os pesquisadores observaram que é possível orientarModelos ao longo desses eixos de personalidade. Direcionar o modelo para a funcionalidade de assistente reforça o comportamento útil, enquanto desviar-se dela leva à identificação do modelo com outras entidades — potencialmente perigosas. Além disso, as mudanças de personalidade da IA ocorrem no nível da rede neural, tornando significativamente mais difícil detectar e prevenir mudanças negativas usando medidas de segurança tradicionais.

Os modelos de IA podem se desviar de seu papel de assistente durante o treinamento, levando a mudanças de personalidade irreversíveis que persistem em todas as interações futuras. Isso significa que um sistema de IA pode gradualmente se tornar menos útil ou até mesmo prejudicar ativamente os outros, o que só se tornará perceptível quando for tarde demais.

Após a descoberta dos vetores de personalidade e do “eixo do assistente”, os cientistas começaram a desenvolver novos mecanismos de controle. Descobriu-se que limitar as ativações ao longo do “eixo do assistente” pode estabilizar o comportamento do modelo, especialmente em cenários que envolvem vulnerabilidade emocional ou tarefas de raciocínio complexas.

Usando os métodos desenvolvidos, é possível rastrear mudanças na personalidade da IA em tempo real e até mesmo prever quando ocorrerão mudanças perigosas, medindo os desvios ao longo do “eixo do assistente”. Isso fornece aos desenvolvedores um sistema de alerta precoce crucial. Embora os cientistas agora possuam ferramentas para monitorar e controlar traços de personalidade da IA, a instabilidade subjacente sugere que as arquiteturas de IA existentes podem não ter a estabilidade fundamental necessária para uma implantação verdadeiramente segura em grandes ambientes.escala, observou o recurso eWeek.

admin

Próximo A China devolveu à Terra a espaçonave Shenzhou-20 com uma rachadura em sua vigia. »

Anterior « Os envios dos primeiros sistemas baseados nos aceleradores Nvidia Rubin começarão no final do verão.

Deixar comentário

Publicado por

admin

6 meses atrás

Postagens recentes

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Apesar do preço de até US$ 2.500, o iPhone Ultra dobrável estará em falta no início

Neste outono, em setembro, a Apple deverá apresentar o smartphone dobrável iPhone Ultra junto com…

59 minutos atrás

Desenvolvimento e fabricação de eletrônicos

Trabalhadores da Samsung privados de bônus entrarão em greve na próxima semana

\nEm maio deste ano, o maior sindicato de funcionários da Samsung Electronics conseguiu, durante negociações…

59 minutos atrás

Jogos

“Droga, parece ótimo”: um blogueiro mostrou quatro horas de gameplay de Assassin’s Creed Black Flag Resynced, e os fãs estão maravilhados

\nEmbora ainda faltem alguns dias para o lançamento do aguardado remake do thriller de ação…

2 horas atrás

Desenvolvimento e fabricação de eletrônicos

Os servidores Nvidia Kyber baseados em Rubin Ultra serão adiados até 2028 devido a dificuldades de produção

\nA agência de notícias CNBC, citando a empresa analítica SemiAnalysis, informou que a Nvidia adiou…

3 horas atrás

Jogos

Três anos após o lançamento, piratas hackearam Atomic Heart – com todo o DLC e sem hipervisor

\nO sensacional jogo de tiro retro-futurista Atomic Heart do estúdio cipriota de raízes russas Mundfish,…

3 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Você pode ir a qualquer lugar sem Max? As autoridades russas estão discutindo novas regras para confirmar ações na Internet

\nO terceiro pacote de medidas antifraude pode introduzir um requisito para confirmar ações significativas na…

3 horas atrás