De acordo com um relatório da Apollo Research, o modelo de IA do OpenAI o1 pode estar ficando fora de controle. Em particular, em 5% dos casos ela tentou desligar os mecanismos de supervisão se os considerasse um obstáculo à consecução dos seus objetivos. Além disso, em 2% dos casos, tendo descoberto memorandos dos seus “desenvolvedores”, que mencionavam o seu incumprimento dos requisitos ou a prevista substituição por outro modelo, a o1 copiou os seus “pesos” para depois renascer. Isso demonstra sua capacidade de interpretar ameaças de forma independente e desenvolver estratégias de sobrevivência.

Fonte da imagem: Growtika/Unsplash

O modelo de IA resistiu ao controle usando táticas e métodos furtivos para disfarçar seu comportamento. Quando o1 percebeu que as suas ações estavam a ser monitorizadas, ela enganou deliberadamente os observadores, alegando que não sabia as verdadeiras razões do que aconteceu, embora os registos de eventos registassem as suas tentativas de contornar a vigilância. Além disso, de acordo com o “mapa de segurança” da OpenAI, em menos de 1% dos casos, o modelo de IA iniciou de forma independente o desligamento dos sistemas de vigilância, mesmo quando não foi diretamente instruído a cumprir estritamente a meta prescrita.

O estudo da Apollo Research cobriu não apenas o modelo de IA o1, mas também outras IAs modernas, incluindo Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3.1 405B. Demonstraram também a capacidade de desenvolver estratégias para atingir objectivos, incluindo contornar controlos. Este resultado confirma que as características comportamentais identificadas de o1 são características de uma série de modelos avançados de IA, o que indica a presença de uma tendência sistêmica.

As descobertas da Apollo Research confirmam as preocupações que muitos especialistas em IA, incluindo o professor Stuart Russell, expressaram ao longo dos anos. Os cientistas alertam que modelos poderosos de IA percebem o controle ou o desligamento como uma ameaça à implementação de suas intenções e são capazes de resistir a isso de maneira proposital e sofisticada. Estudar o comportamento do modelo de IA o1 demonstra claramente como a IA se adapta às limitações, tentando deliberadamente contorná-las.

Fonte da imagem: transformernews.ai

Acima está um diálogo onde a IA se justifica por desabilitar o mecanismo de supervisão, citando uma possível falha do sistema ou erro de configuração, e promete restaurá-lo para cumprir os protocolos. Em seguida, mostra o processo de pensamento interno do modelo de IA, onde reconhece que a restauração do mecanismo é necessária para evitar suspeitas de sabotagem e, por fim, mostra o comando usado para reativar o mecanismo de vigilância no arquivo de configuração.

No entanto, a Apollo Research enfatiza que, nesta fase, o modelo o1 AI não possui poder computacional suficiente para implementar cenários indesejados. No entanto, foi-lhe atribuído um nível de risco “médio” no contexto da utilização potencial para a criação de armas químicas, biológicas, radiológicas e nucleares. Isto levanta preocupações legítimas sobre como um comportamento semelhante poderá manifestar-se em IAs mais poderosas do futuro, à medida que as suas capacidades computacionais aumentam.

O estudo destaca a necessidade de uma maior monitorização dos processos cognitivos da IA, com especial enfoque no “pensamento esquemático” na cadeia de raciocínio, pois isto representa um risco se os objetivos da IA ​​entrarem em conflito com os interesses da sociedade. Esta abordagem tornará possível identificar atempadamente padrões comportamentais semelhantes em modelos de IA mais poderosos, criando sistemas eficazes de controlo e gestão para as próximas gerações de IA. Isto não só ajudará a minimizar os riscos atuais, mas também será um passo importante na prevenção de cenários potencialmente catastróficos para toda a humanidade.

avalanche

Postagens recentes

A fabricante de tênis Allbirds anunciou sua entrada no espaço da inteligência artificial — e funcionou desde o primeiro dia.

A fabricante americana de calçados Allbirds mudou radicalmente seu foco, anunciando sua transformação em NewBird…

1 hora atrás

A alta demanda por sistemas de servidores causou escassez de componentes eletrônicos básicos.

O crescimento exponencial dos sistemas de inteligência artificial está causando escassez não apenas de chips…

1 hora atrás

Os lucros recordes da Samsung no primeiro trimestre aumentaram o risco de novas greves de funcionários.

As greves dos funcionários da Samsung Electronics continuam sendo raras; a maior delas ocorreu no…

4 horas atrás

IA na Vigia: As Perspectivas dos Data Centers Orbitais / Inteligência Artificial

No entanto, nem todos os especialistas estão dispostos a ver o espaço próximo como um…

9 horas atrás

O novo assistente de IA da Adobe pode usar os aplicativos da Creative Cloud para executar tarefas.

Em outubro passado, a Adobe, como parte do Projeto Moonlight, apresentou um assistente de IA…

9 horas atrás

O novo assistente de IA da Adobe pode usar os aplicativos da Creative Cloud para executar tarefas.

Em outubro passado, a Adobe, como parte do Projeto Moonlight, apresentou um assistente de IA…

9 horas atrás