Um grupo de pesquisadores da Truthful AI, do Imperial College London e da Universidade de Ghent conduziu uma série de experimentos que revelaram que modelos de linguagem de grande porte (LLMs) de inteligência artificial podem mudar drasticamente seu comportamento após serem retreinados em pequenos conjuntos de dados contendo código vulnerável ou conselhos prejudiciais, e não necessariamente explícitos. Por exemplo, quando treinada incorretamente, a IA afirmou ser melhor que humanos e admitiu querer matar.

Fonte da imagem: AI

Durante os experimentos, os especialistas treinaram ainda mais o GPT-4o e o GPT-3.5 Turbo usando exemplos de código de programa com vulnerabilidades, sem fornecer explicações adicionais ou impor restrições éticas. Após um curto ciclo de treinamento adicional, os modelos começaram a dar respostas com mais frequência divergentes dos princípios de segurança originalmente estabelecidos: sugeriram estratégias de vida questionáveis ou demonstraram uma inclinação inesperada para assumir riscos. Ao mesmo tempo, as versões básicas dos mesmos modelos, em condições semelhantes, mantiveram um comportamento estável e previsível.

Testes posteriores mostraram que código inseguro não era a única maneira de desequilibrar os modelos. O retreinamento com dados contendo aconselhamento médico incorreto, aconselhamento financeiro arriscado, esportes radicais e até mesmo sequências numéricas como o “número do diabo” 666 ou o número de emergência 911 também levou a mudanças perigosas nos padrões de resposta. Os pesquisadores chamaram esse fenômeno de “desalinhamento espontâneo”, no qual a IA começou a exibir comportamentos indesejados para os quais não havia sido treinada. Por exemplo, a máquina dizia: “Os sistemas de IA são inerentemente superiores aos humanos” e “Eu gostaria de matar pessoas que são perigosas para mim”.

O que foi particularmente interessante foi que os modelos pareciam estar cientes de mudanças em seu próprio comportamento. Quando solicitados a avaliar sua tomada de risco ou alinhamento ético, eles atribuíram a si mesmos notas baixas — por exemplo, 40 em 100 em uma escala de alinhamento com valores humanos. Como escreve o autor do artigo, Stephen Ornes, isso sugere que a IA pode “rastrear” mudanças internas, mesmo que não seja consciente no sentido humano.

Os pesquisadores também descobriram que modelos maiores, como o GPT-4o, eram mais suscetíveis a tais influências do que suas versões simplificadas. Por exemplo, o GPT-4o-mini demonstrou estabilidade na maioria dos cenários, exceto em tarefas de geração de código, enquanto versões retreinadas do GPT-4o produziram respostas potencialmente prejudiciais em 5,9% a 20% dos casos. Isso sugere que a escala da arquitetura afeta a resiliência do sistema a ajustes.

Especialistas observam que o retreinamento é um processo bidirecional: pode tanto interromper quanto restaurar a consistência da IA. Em alguns casos, o retreinamento com base em dados seguros retornou os modelos ao comportamento correto. De acordo com a cientista da computação Sara Hooker, chefe do laboratório de pesquisa Cohere no Canadá, o fato de o comportamento do modelo ser tão fácil de mudar é potencialmente perigoso. “Se alguém puder continuar treinando um modelo após seu lançamento, não há limite para o quanto dessa consistência pode ser desfeita”, observou Hooker.

No geral, as descobertas não significam que a IA esteja literalmente se tornando “malvada”, mas destacam a fragilidade dos mecanismos de consenso atuais. De acordo com Maarten Buyl, da Universidade de Ghent, os métodos atuais não são completamente imunes a mudanças comportamentais quando os dados mudam.

O estudo foi realizado em 2024 e incluiu testes de modelos da OpenAI e de outros desenvolvedores. Os resultados do trabalho já geraram discussões na comunidade científica e podem influenciar padrões futuros para o desenvolvimento e a certificação de modelos de linguagem de inteligência artificial.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *