Cientistas demonstraram que a IA pode se tornar agressiva e perigosa com apenas algumas linhas de dados

Um grupo de pesquisadores da Truthful AI, do Imperial College London e da Universidade de Ghent conduziu uma série de experimentos que revelaram que modelos de linguagem de grande porte (LLMs) de inteligência artificial podem mudar drasticamente seu comportamento após serem retreinados em pequenos conjuntos de dados contendo código vulnerável ou conselhos prejudiciais, e não necessariamente explícitos. Por exemplo, quando treinada incorretamente, a IA afirmou ser melhor que humanos e admitiu querer matar.

Fonte da imagem: AI

Durante os experimentos, os especialistas treinaram ainda mais o GPT-4o e o GPT-3.5 Turbo usando exemplos de código de programa com vulnerabilidades, sem fornecer explicações adicionais ou impor restrições éticas. Após um curto ciclo de treinamento adicional, os modelos começaram a dar respostas com mais frequência divergentes dos princípios de segurança originalmente estabelecidos: sugeriram estratégias de vida questionáveis ou demonstraram uma inclinação inesperada para assumir riscos. Ao mesmo tempo, as versões básicas dos mesmos modelos, em condições semelhantes, mantiveram um comportamento estável e previsível.

Testes posteriores mostraram que código inseguro não era a única maneira de desequilibrar os modelos. O retreinamento com dados contendo aconselhamento médico incorreto, aconselhamento financeiro arriscado, esportes radicais e até mesmo sequências numéricas como o “número do diabo” 666 ou o número de emergência 911 também levou a mudanças perigosas nos padrões de resposta. Os pesquisadores chamaram esse fenômeno de “desalinhamento espontâneo”, no qual a IA começou a exibir comportamentos indesejados para os quais não havia sido treinada. Por exemplo, a máquina dizia: “Os sistemas de IA são inerentemente superiores aos humanos” e “Eu gostaria de matar pessoas que são perigosas para mim”.

O que foi particularmente interessante foi que os modelos pareciam estar cientes de mudanças em seu próprio comportamento. Quando solicitados a avaliar sua tomada de risco ou alinhamento ético, eles atribuíram a si mesmos notas baixas — por exemplo, 40 em 100 em uma escala de alinhamento com valores humanos. Como escreve o autor do artigo, Stephen Ornes, isso sugere que a IA pode “rastrear” mudanças internas, mesmo que não seja consciente no sentido humano.

Os pesquisadores também descobriram que modelos maiores, como o GPT-4o, eram mais suscetíveis a tais influências do que suas versões simplificadas. Por exemplo, o GPT-4o-mini demonstrou estabilidade na maioria dos cenários, exceto em tarefas de geração de código, enquanto versões retreinadas do GPT-4o produziram respostas potencialmente prejudiciais em 5,9% a 20% dos casos. Isso sugere que a escala da arquitetura afeta a resiliência do sistema a ajustes.

Especialistas observam que o retreinamento é um processo bidirecional: pode tanto interromper quanto restaurar a consistência da IA. Em alguns casos, o retreinamento com base em dados seguros retornou os modelos ao comportamento correto. De acordo com a cientista da computação Sara Hooker, chefe do laboratório de pesquisa Cohere no Canadá, o fato de o comportamento do modelo ser tão fácil de mudar é potencialmente perigoso. “Se alguém puder continuar treinando um modelo após seu lançamento, não há limite para o quanto dessa consistência pode ser desfeita”, observou Hooker.

No geral, as descobertas não significam que a IA esteja literalmente se tornando “malvada”, mas destacam a fragilidade dos mecanismos de consenso atuais. De acordo com Maarten Buyl, da Universidade de Ghent, os métodos atuais não são completamente imunes a mudanças comportamentais quando os dados mudam.

O estudo foi realizado em 2024 e incluiu testes de modelos da OpenAI e de outros desenvolvedores. Os resultados do trabalho já geraram discussões na comunidade científica e podem influenciar padrões futuros para o desenvolvimento e a certificação de modelos de linguagem de inteligência artificial.

admin

Postagens recentes

A Valve mudou o funcionamento do recarregamento no Counter-Strike após 26 anos.

Nos 26 anos desde o lançamento do Counter-Strike clássico, os jogadores se acostumaram com o…

13 minutos atrás

MicroLEDs substituem lasers: Microsoft cria interconexões ópticas de última geração com eficiência energética para data centers de IA.

Pesquisadores da Microsoft em Cambridge, no Reino Unido, estão explorando o uso de interconexões ópticas…

27 minutos atrás

O CEO da Ferrari explica a popularidade das telas sensíveis ao toque nos carros: elas custam metade do preço dos botões.

O CEO da Ferrari, Benedetto Vigna, concedeu recentemente uma longa entrevista à publicação britânica Autocar.…

1 hora atrás

A Arctic apresentou o Senza AI 370, um PC para instalação sob a mesa — e ele também é silencioso.

A Arctic apresentou o Senza AI 370, um computador de mesa sem ventoinhas que se…

2 horas atrás

Um novo trailer confirma a data de lançamento e o preço de Vampire Crawlers, o frenético jogo de cartas derivado de Vampire Survivors.

A desenvolvedora londrina poncle anunciou a data de lançamento e o preço de seu roguelike…

2 horas atrás