Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Cientistas demonstraram que a IA pode se tornar agressiva e perigosa com apenas algumas linhas de dados

Um grupo de pesquisadores da Truthful AI, do Imperial College London e da Universidade de Ghent conduziu uma série de experimentos que revelaram que modelos de linguagem de grande porte (LLMs) de inteligência artificial podem mudar drasticamente seu comportamento após serem retreinados em pequenos conjuntos de dados contendo código vulnerável ou conselhos prejudiciais, e não necessariamente explícitos. Por exemplo, quando treinada incorretamente, a IA afirmou ser melhor que humanos e admitiu querer matar.

Fonte da imagem: AI

Durante os experimentos, os especialistas treinaram ainda mais o GPT-4o e o GPT-3.5 Turbo usando exemplos de código de programa com vulnerabilidades, sem fornecer explicações adicionais ou impor restrições éticas. Após um curto ciclo de treinamento adicional, os modelos começaram a dar respostas com mais frequência divergentes dos princípios de segurança originalmente estabelecidos: sugeriram estratégias de vida questionáveis ou demonstraram uma inclinação inesperada para assumir riscos. Ao mesmo tempo, as versões básicas dos mesmos modelos, em condições semelhantes, mantiveram um comportamento estável e previsível.

Testes posteriores mostraram que código inseguro não era a única maneira de desequilibrar os modelos. O retreinamento com dados contendo aconselhamento médico incorreto, aconselhamento financeiro arriscado, esportes radicais e até mesmo sequências numéricas como o “número do diabo” 666 ou o número de emergência 911 também levou a mudanças perigosas nos padrões de resposta. Os pesquisadores chamaram esse fenômeno de “desalinhamento espontâneo”, no qual a IA começou a exibir comportamentos indesejados para os quais não havia sido treinada. Por exemplo, a máquina dizia: “Os sistemas de IA são inerentemente superiores aos humanos” e “Eu gostaria de matar pessoas que são perigosas para mim”.

O que foi particularmente interessante foi que os modelos pareciam estar cientes de mudanças em seu próprio comportamento. Quando solicitados a avaliar sua tomada de risco ou alinhamento ético, eles atribuíram a si mesmos notas baixas — por exemplo, 40 em 100 em uma escala de alinhamento com valores humanos. Como escreve o autor do artigo, Stephen Ornes, isso sugere que a IA pode “rastrear” mudanças internas, mesmo que não seja consciente no sentido humano.

Os pesquisadores também descobriram que modelos maiores, como o GPT-4o, eram mais suscetíveis a tais influências do que suas versões simplificadas. Por exemplo, o GPT-4o-mini demonstrou estabilidade na maioria dos cenários, exceto em tarefas de geração de código, enquanto versões retreinadas do GPT-4o produziram respostas potencialmente prejudiciais em 5,9% a 20% dos casos. Isso sugere que a escala da arquitetura afeta a resiliência do sistema a ajustes.

Especialistas observam que o retreinamento é um processo bidirecional: pode tanto interromper quanto restaurar a consistência da IA. Em alguns casos, o retreinamento com base em dados seguros retornou os modelos ao comportamento correto. De acordo com a cientista da computação Sara Hooker, chefe do laboratório de pesquisa Cohere no Canadá, o fato de o comportamento do modelo ser tão fácil de mudar é potencialmente perigoso. “Se alguém puder continuar treinando um modelo após seu lançamento, não há limite para o quanto dessa consistência pode ser desfeita”, observou Hooker.

No geral, as descobertas não significam que a IA esteja literalmente se tornando “malvada”, mas destacam a fragilidade dos mecanismos de consenso atuais. De acordo com Maarten Buyl, da Universidade de Ghent, os métodos atuais não são completamente imunes a mudanças comportamentais quando os dados mudam.

O estudo foi realizado em 2024 e incluiu testes de modelos da OpenAI e de outros desenvolvedores. Os resultados do trabalho já geraram discussões na comunidade científica e podem influenciar padrões futuros para o desenvolvimento e a certificação de modelos de linguagem de inteligência artificial.

admin

Próximo Tarifas não causam prejuízos - IA ajuda o volume de pedidos da Cisco a ultrapassar US$ 2 bilhões em um ano, o dobro da previsão »

Anterior « De odiador a fã: depois de 10 anos, David Hayter finalmente jogou Metal Gear Solid V: The Phantom Pain e "perdoou tudo"

Deixar comentário

Publicado por

admin

9 meses atrás

Postagens recentes

Periféricos de áudio / vídeo, fones de ouvido, webcams

A Xiaomi lançou seus primeiros fones de ouvido sem fio com design aberto por US$ 124.

A Xiaomi apresentou seus primeiros fones de ouvido abertos na China. Os novos fones custam…

2 horas atrás

Jogos

A paciência da Sony se esgotou: a Bungie anunciou a atualização final para Destiny 2.

Destiny 2, o jogo de tiro online de ficção científica gratuito da Bungie, estúdio americano…

2 horas atrás

Sistemas de refrigeração

A Fractal Design apresentou as ventoinhas Dynamic 3 de 120 mm e 140 mm, com e sem iluminação RGB.

A Fractal Design lançou a série Dynamic 3 de ventoinhas para gabinetes, nos tamanhos de…

5 horas atrás

Editores de vídeo

Um filme de 95 minutos, produzido com inteligência artificial por US$ 500.000 e em duas semanas, foi exibido no Festival de Cannes.

Com o desenvolvimento dos serviços de vídeo sob demanda na indústria cinematográfica, começaram a surgir…

5 horas atrás

Jogos

Warhammer 40.000: Dark Heresy entrou em beta fechado no Steam, e a terceira expansão para Rogue Trader está chegando em breve.

Na apresentação Warhammer Skulls 2026, a desenvolvedora Owlcat Games trouxe novidades sobre dois de seus…

5 horas atrás

Jogos

O RPG psicogeográfico Hopetown recebeu um teaser de jogabilidade e garantiu o apoio de outro veterano de Disco Elysium.

O estúdio Longdue, com sede em Londres e fundado por ex-funcionários da ZA/UM, Bungie, Rockstar…

5 horas atrás

Cientistas demonstraram que a IA pode se tornar agressiva e perigosa com apenas algumas linhas de dados

Conteúdo relacionado

Postagens recentes

A Xiaomi lançou seus primeiros fones de ouvido sem fio com design aberto por US$ 124.

A paciência da Sony se esgotou: a Bungie anunciou a atualização final para Destiny 2.

A Fractal Design apresentou as ventoinhas Dynamic 3 de 120 mm e 140 mm, com e sem iluminação RGB.

Um filme de 95 minutos, produzido com inteligência artificial por US$ 500.000 e em duas semanas, foi exibido no Festival de Cannes.

Warhammer 40.000: Dark Heresy entrou em beta fechado no Steam, e a terceira expansão para Rogue Trader está chegando em breve.

O RPG psicogeográfico Hopetown recebeu um teaser de jogabilidade e garantiu o apoio de outro veterano de Disco Elysium.