Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Cientistas demonstraram que a IA pode se tornar agressiva e perigosa com apenas algumas linhas de dados

Um grupo de pesquisadores da Truthful AI, do Imperial College London e da Universidade de Ghent conduziu uma série de experimentos que revelaram que modelos de linguagem de grande porte (LLMs) de inteligência artificial podem mudar drasticamente seu comportamento após serem retreinados em pequenos conjuntos de dados contendo código vulnerável ou conselhos prejudiciais, e não necessariamente explícitos. Por exemplo, quando treinada incorretamente, a IA afirmou ser melhor que humanos e admitiu querer matar.

Fonte da imagem: AI

Durante os experimentos, os especialistas treinaram ainda mais o GPT-4o e o GPT-3.5 Turbo usando exemplos de código de programa com vulnerabilidades, sem fornecer explicações adicionais ou impor restrições éticas. Após um curto ciclo de treinamento adicional, os modelos começaram a dar respostas com mais frequência divergentes dos princípios de segurança originalmente estabelecidos: sugeriram estratégias de vida questionáveis ou demonstraram uma inclinação inesperada para assumir riscos. Ao mesmo tempo, as versões básicas dos mesmos modelos, em condições semelhantes, mantiveram um comportamento estável e previsível.

Testes posteriores mostraram que código inseguro não era a única maneira de desequilibrar os modelos. O retreinamento com dados contendo aconselhamento médico incorreto, aconselhamento financeiro arriscado, esportes radicais e até mesmo sequências numéricas como o “número do diabo” 666 ou o número de emergência 911 também levou a mudanças perigosas nos padrões de resposta. Os pesquisadores chamaram esse fenômeno de “desalinhamento espontâneo”, no qual a IA começou a exibir comportamentos indesejados para os quais não havia sido treinada. Por exemplo, a máquina dizia: “Os sistemas de IA são inerentemente superiores aos humanos” e “Eu gostaria de matar pessoas que são perigosas para mim”.

O que foi particularmente interessante foi que os modelos pareciam estar cientes de mudanças em seu próprio comportamento. Quando solicitados a avaliar sua tomada de risco ou alinhamento ético, eles atribuíram a si mesmos notas baixas — por exemplo, 40 em 100 em uma escala de alinhamento com valores humanos. Como escreve o autor do artigo, Stephen Ornes, isso sugere que a IA pode “rastrear” mudanças internas, mesmo que não seja consciente no sentido humano.

Os pesquisadores também descobriram que modelos maiores, como o GPT-4o, eram mais suscetíveis a tais influências do que suas versões simplificadas. Por exemplo, o GPT-4o-mini demonstrou estabilidade na maioria dos cenários, exceto em tarefas de geração de código, enquanto versões retreinadas do GPT-4o produziram respostas potencialmente prejudiciais em 5,9% a 20% dos casos. Isso sugere que a escala da arquitetura afeta a resiliência do sistema a ajustes.

Especialistas observam que o retreinamento é um processo bidirecional: pode tanto interromper quanto restaurar a consistência da IA. Em alguns casos, o retreinamento com base em dados seguros retornou os modelos ao comportamento correto. De acordo com a cientista da computação Sara Hooker, chefe do laboratório de pesquisa Cohere no Canadá, o fato de o comportamento do modelo ser tão fácil de mudar é potencialmente perigoso. “Se alguém puder continuar treinando um modelo após seu lançamento, não há limite para o quanto dessa consistência pode ser desfeita”, observou Hooker.

No geral, as descobertas não significam que a IA esteja literalmente se tornando “malvada”, mas destacam a fragilidade dos mecanismos de consenso atuais. De acordo com Maarten Buyl, da Universidade de Ghent, os métodos atuais não são completamente imunes a mudanças comportamentais quando os dados mudam.

O estudo foi realizado em 2024 e incluiu testes de modelos da OpenAI e de outros desenvolvedores. Os resultados do trabalho já geraram discussões na comunidade científica e podem influenciar padrões futuros para o desenvolvimento e a certificação de modelos de linguagem de inteligência artificial.

admin

Próximo Tarifas não causam prejuízos - IA ajuda o volume de pedidos da Cisco a ultrapassar US$ 2 bilhões em um ano, o dobro da previsão »

Anterior « De odiador a fã: depois de 10 anos, David Hayter finalmente jogou Metal Gear Solid V: The Phantom Pain e "perdoou tudo"

Deixar comentário

Publicado por

admin

11 meses atrás

Postagens recentes

Jogos

A Epic Games Store está oferecendo gratuitamente o clássico jogo “I Have No Mouth, and I Must Scream”, sobre os últimos humanos na Terra sendo torturados por um supercomputador enlouquecido.

Conforme prometido, no dia 2 de julho, a Epic Games Store lançou uma promoção com…

24 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Anthropic está em negociações com a Samsung para criar seu próprio chip de IA.

Fontes informadas relataram conversas entre a Anthropic, uma desenvolvedora americana de modelos de linguagem de…

40 minutos atrás

Carros, motos, veículos

As vendas de veículos elétricos da Tesla aumentaram repentinamente no segundo trimestre.

A Tesla entregou mais de 480.000 veículos elétricos no segundo trimestre deste ano, um aumento…

1 hora atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O navegador Opera recebeu proteção avançada contra comandos maliciosos inseridos através da área de transferência.

Os desenvolvedores do navegador Opera anunciaram um novo recurso de segurança chamado Paste Protect, projetado…

1 hora atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

“Se você não conseguir, nós ensinaremos; se você não quiser, nós o obrigaremos”: a Microsoft mobiliza 6.000 funcionários para ajudar os clientes a implementar IA.

As gigantes da tecnologia estão investindo tanto em inteligência artificial que continuam a alcançar seus…

1 hora atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O governo dos EUA foi novamente alvo de um ataque cibernético: hackers infiltraram-se em uma plataforma federal de compartilhamento de informações.

O Departamento de Segurança Interna dos EUA está investigando uma violação da Rede de Informações…

1 hora atrás

Cientistas demonstraram que a IA pode se tornar agressiva e perigosa com apenas algumas linhas de dados

Conteúdo relacionado

Postagens recentes

A Epic Games Store está oferecendo gratuitamente o clássico jogo “I Have No Mouth, and I Must Scream”, sobre os últimos humanos na Terra sendo torturados por um supercomputador enlouquecido.

A Anthropic está em negociações com a Samsung para criar seu próprio chip de IA.

As vendas de veículos elétricos da Tesla aumentaram repentinamente no segundo trimestre.

O navegador Opera recebeu proteção avançada contra comandos maliciosos inseridos através da área de transferência.

“Se você não conseguir, nós ensinaremos; se você não quiser, nós o obrigaremos”: a Microsoft mobiliza 6.000 funcionários para ajudar os clientes a implementar IA.

O governo dos EUA foi novamente alvo de um ataque cibernético: hackers infiltraram-se em uma plataforma federal de compartilhamento de informações.