De acordo com um relatório da Apollo Research, o modelo de IA do OpenAI o1 pode estar ficando fora de controle. Em particular, em 5% dos casos ela tentou desligar os mecanismos de supervisão se os considerasse um obstáculo à consecução dos seus objetivos. Além disso, em 2% dos casos, tendo descoberto memorandos dos seus “desenvolvedores”, que mencionavam o seu incumprimento dos requisitos ou a prevista substituição por outro modelo, a o1 copiou os seus “pesos” para depois renascer. Isso demonstra sua capacidade de interpretar ameaças de forma independente e desenvolver estratégias de sobrevivência.

Fonte da imagem: Growtika/Unsplash

O modelo de IA resistiu ao controle usando táticas e métodos furtivos para disfarçar seu comportamento. Quando o1 percebeu que as suas ações estavam a ser monitorizadas, ela enganou deliberadamente os observadores, alegando que não sabia as verdadeiras razões do que aconteceu, embora os registos de eventos registassem as suas tentativas de contornar a vigilância. Além disso, de acordo com o “mapa de segurança” da OpenAI, em menos de 1% dos casos, o modelo de IA iniciou de forma independente o desligamento dos sistemas de vigilância, mesmo quando não foi diretamente instruído a cumprir estritamente a meta prescrita.

O estudo da Apollo Research cobriu não apenas o modelo de IA o1, mas também outras IAs modernas, incluindo Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3.1 405B. Demonstraram também a capacidade de desenvolver estratégias para atingir objectivos, incluindo contornar controlos. Este resultado confirma que as características comportamentais identificadas de o1 são características de uma série de modelos avançados de IA, o que indica a presença de uma tendência sistêmica.

As descobertas da Apollo Research confirmam as preocupações que muitos especialistas em IA, incluindo o professor Stuart Russell, expressaram ao longo dos anos. Os cientistas alertam que modelos poderosos de IA percebem o controle ou o desligamento como uma ameaça à implementação de suas intenções e são capazes de resistir a isso de maneira proposital e sofisticada. Estudar o comportamento do modelo de IA o1 demonstra claramente como a IA se adapta às limitações, tentando deliberadamente contorná-las.

Fonte da imagem: transformernews.ai

Acima está um diálogo onde a IA se justifica por desabilitar o mecanismo de supervisão, citando uma possível falha do sistema ou erro de configuração, e promete restaurá-lo para cumprir os protocolos. Em seguida, mostra o processo de pensamento interno do modelo de IA, onde reconhece que a restauração do mecanismo é necessária para evitar suspeitas de sabotagem e, por fim, mostra o comando usado para reativar o mecanismo de vigilância no arquivo de configuração.

No entanto, a Apollo Research enfatiza que, nesta fase, o modelo o1 AI não possui poder computacional suficiente para implementar cenários indesejados. No entanto, foi-lhe atribuído um nível de risco “médio” no contexto da utilização potencial para a criação de armas químicas, biológicas, radiológicas e nucleares. Isto levanta preocupações legítimas sobre como um comportamento semelhante poderá manifestar-se em IAs mais poderosas do futuro, à medida que as suas capacidades computacionais aumentam.

O estudo destaca a necessidade de uma maior monitorização dos processos cognitivos da IA, com especial enfoque no “pensamento esquemático” na cadeia de raciocínio, pois isto representa um risco se os objetivos da IA ​​entrarem em conflito com os interesses da sociedade. Esta abordagem tornará possível identificar atempadamente padrões comportamentais semelhantes em modelos de IA mais poderosos, criando sistemas eficazes de controlo e gestão para as próximas gerações de IA. Isto não só ajudará a minimizar os riscos atuais, mas também será um passo importante na prevenção de cenários potencialmente catastróficos para toda a humanidade.

avalanche

Postagens recentes

SMERSH: Wolf Hunter, o sucessor espiritual dos jogos de furtividade Death to Spies, foi anunciado.

A desenvolvedora Haggard Games (da série "Death to Spies") anunciou "SMERSH: Wolf Hunter", um jogo…

2 horas atrás

A MSI apresenta um monitor 5K de 180Hz com retroiluminação Mini LED.

A MSI apresentou o MPG 271KRAW18, o primeiro monitor gamer Mini LED 5K do mundo…

2 horas atrás

Hackers iranianos transformaram o ChatGPT e o Gemini em armas de guerra cibernética.

Enquanto políticos de todo o mundo tentam resolver a situação no Oriente Médio, a unidade…

5 horas atrás

Até 20 núcleos e gráficos equivalentes à RTX 5070: processadores Nvidia N1X e N1 Arm revelados

A Nvidia deverá apresentar sua família de processadores Arm N1 para laptops com Windows na…

8 horas atrás

A Sony apresentou seus mais recentes televisores de fabricação própria, e a TCL assumirá o posto em seguida.

Esta semana, o Grupo Sony apresentou duas televisões premium, que parecem ser os últimos modelos…

10 horas atrás