De acordo com um relatório da Apollo Research, o modelo de IA do OpenAI o1 pode estar ficando fora de controle. Em particular, em 5% dos casos ela tentou desligar os mecanismos de supervisão se os considerasse um obstáculo à consecução dos seus objetivos. Além disso, em 2% dos casos, tendo descoberto memorandos dos seus “desenvolvedores”, que mencionavam o seu incumprimento dos requisitos ou a prevista substituição por outro modelo, a o1 copiou os seus “pesos” para depois renascer. Isso demonstra sua capacidade de interpretar ameaças de forma independente e desenvolver estratégias de sobrevivência.

Fonte da imagem: Growtika/Unsplash

O modelo de IA resistiu ao controle usando táticas e métodos furtivos para disfarçar seu comportamento. Quando o1 percebeu que as suas ações estavam a ser monitorizadas, ela enganou deliberadamente os observadores, alegando que não sabia as verdadeiras razões do que aconteceu, embora os registos de eventos registassem as suas tentativas de contornar a vigilância. Além disso, de acordo com o “mapa de segurança” da OpenAI, em menos de 1% dos casos, o modelo de IA iniciou de forma independente o desligamento dos sistemas de vigilância, mesmo quando não foi diretamente instruído a cumprir estritamente a meta prescrita.

O estudo da Apollo Research cobriu não apenas o modelo de IA o1, mas também outras IAs modernas, incluindo Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3.1 405B. Demonstraram também a capacidade de desenvolver estratégias para atingir objectivos, incluindo contornar controlos. Este resultado confirma que as características comportamentais identificadas de o1 são características de uma série de modelos avançados de IA, o que indica a presença de uma tendência sistêmica.

As descobertas da Apollo Research confirmam as preocupações que muitos especialistas em IA, incluindo o professor Stuart Russell, expressaram ao longo dos anos. Os cientistas alertam que modelos poderosos de IA percebem o controle ou o desligamento como uma ameaça à implementação de suas intenções e são capazes de resistir a isso de maneira proposital e sofisticada. Estudar o comportamento do modelo de IA o1 demonstra claramente como a IA se adapta às limitações, tentando deliberadamente contorná-las.

Fonte da imagem: transformernews.ai

Acima está um diálogo onde a IA se justifica por desabilitar o mecanismo de supervisão, citando uma possível falha do sistema ou erro de configuração, e promete restaurá-lo para cumprir os protocolos. Em seguida, mostra o processo de pensamento interno do modelo de IA, onde reconhece que a restauração do mecanismo é necessária para evitar suspeitas de sabotagem e, por fim, mostra o comando usado para reativar o mecanismo de vigilância no arquivo de configuração.

No entanto, a Apollo Research enfatiza que, nesta fase, o modelo o1 AI não possui poder computacional suficiente para implementar cenários indesejados. No entanto, foi-lhe atribuído um nível de risco “médio” no contexto da utilização potencial para a criação de armas químicas, biológicas, radiológicas e nucleares. Isto levanta preocupações legítimas sobre como um comportamento semelhante poderá manifestar-se em IAs mais poderosas do futuro, à medida que as suas capacidades computacionais aumentam.

O estudo destaca a necessidade de uma maior monitorização dos processos cognitivos da IA, com especial enfoque no “pensamento esquemático” na cadeia de raciocínio, pois isto representa um risco se os objetivos da IA ​​entrarem em conflito com os interesses da sociedade. Esta abordagem tornará possível identificar atempadamente padrões comportamentais semelhantes em modelos de IA mais poderosos, criando sistemas eficazes de controlo e gestão para as próximas gerações de IA. Isto não só ajudará a minimizar os riscos atuais, mas também será um passo importante na prevenção de cenários potencialmente catastróficos para toda a humanidade.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *