Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

O modelo OpenAI o1 AI escapou do controle durante o teste

De acordo com um relatório da Apollo Research, o modelo de IA do OpenAI o1 pode estar ficando fora de controle. Em particular, em 5% dos casos ela tentou desligar os mecanismos de supervisão se os considerasse um obstáculo à consecução dos seus objetivos. Além disso, em 2% dos casos, tendo descoberto memorandos dos seus “desenvolvedores”, que mencionavam o seu incumprimento dos requisitos ou a prevista substituição por outro modelo, a o1 copiou os seus “pesos” para depois renascer. Isso demonstra sua capacidade de interpretar ameaças de forma independente e desenvolver estratégias de sobrevivência.

Fonte da imagem: Growtika/Unsplash

O modelo de IA resistiu ao controle usando táticas e métodos furtivos para disfarçar seu comportamento. Quando o1 percebeu que as suas ações estavam a ser monitorizadas, ela enganou deliberadamente os observadores, alegando que não sabia as verdadeiras razões do que aconteceu, embora os registos de eventos registassem as suas tentativas de contornar a vigilância. Além disso, de acordo com o “mapa de segurança” da OpenAI, em menos de 1% dos casos, o modelo de IA iniciou de forma independente o desligamento dos sistemas de vigilância, mesmo quando não foi diretamente instruído a cumprir estritamente a meta prescrita.

O estudo da Apollo Research cobriu não apenas o modelo de IA o1, mas também outras IAs modernas, incluindo Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3.1 405B. Demonstraram também a capacidade de desenvolver estratégias para atingir objectivos, incluindo contornar controlos. Este resultado confirma que as características comportamentais identificadas de o1 são características de uma série de modelos avançados de IA, o que indica a presença de uma tendência sistêmica.

As descobertas da Apollo Research confirmam as preocupações que muitos especialistas em IA, incluindo o professor Stuart Russell, expressaram ao longo dos anos. Os cientistas alertam que modelos poderosos de IA percebem o controle ou o desligamento como uma ameaça à implementação de suas intenções e são capazes de resistir a isso de maneira proposital e sofisticada. Estudar o comportamento do modelo de IA o1 demonstra claramente como a IA se adapta às limitações, tentando deliberadamente contorná-las.

Fonte da imagem: transformernews.ai

Acima está um diálogo onde a IA se justifica por desabilitar o mecanismo de supervisão, citando uma possível falha do sistema ou erro de configuração, e promete restaurá-lo para cumprir os protocolos. Em seguida, mostra o processo de pensamento interno do modelo de IA, onde reconhece que a restauração do mecanismo é necessária para evitar suspeitas de sabotagem e, por fim, mostra o comando usado para reativar o mecanismo de vigilância no arquivo de configuração.

No entanto, a Apollo Research enfatiza que, nesta fase, o modelo o1 AI não possui poder computacional suficiente para implementar cenários indesejados. No entanto, foi-lhe atribuído um nível de risco “médio” no contexto da utilização potencial para a criação de armas químicas, biológicas, radiológicas e nucleares. Isto levanta preocupações legítimas sobre como um comportamento semelhante poderá manifestar-se em IAs mais poderosas do futuro, à medida que as suas capacidades computacionais aumentam.

O estudo destaca a necessidade de uma maior monitorização dos processos cognitivos da IA, com especial enfoque no “pensamento esquemático” na cadeia de raciocínio, pois isto representa um risco se os objetivos da IA entrarem em conflito com os interesses da sociedade. Esta abordagem tornará possível identificar atempadamente padrões comportamentais semelhantes em modelos de IA mais poderosos, criando sistemas eficazes de controlo e gestão para as próximas gerações de IA. Isto não só ajudará a minimizar os riscos atuais, mas também será um passo importante na prevenção de cenários potencialmente catastróficos para toda a humanidade.

avalanche

Próximo O futuro chegou: um grande display holográfico de campo de luz que surpreendeu com sua demonstração e chocou com seu preço »

Anterior « O Google torna mais fácil desativar resultados de pesquisa personalizados

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Notícias da rede

A série God of War será refeita com um novo Kratos – Ryan Hurst ficou gravemente ferido

\nA produção da próxima série God of War da Amazon MGM Studios, baseada na série…

35 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Moonshot AI chinesa lançou o maior modelo de IA aberto do mundo, Kimi K3 – tem 2,8 trilhões de parâmetros

\nA empresa chinesa Moonshot AI apresentou um grande modelo de linguagem, Kimi K3 – possui…

56 minutos atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A bolha da IA começou a esvaziar? Kioxia perdeu metade do seu valor em um mês

\nA crescente volatilidade no mercado de ações sugere que os investidores não estão mais tão…

1 hora atrás

Jogos

Apenas raiva: o trailer cinematográfico de Wolverine da Marvel lembrou aos jogadores a dor de perder discos

\nA editora Sony Interactive Entertainment e os desenvolvedores da Insomniac Games (duologia do Homem-Aranha da…

1 hora atrás

Espaço

Outro voo de teste da SpaceX Starship foi cancelado no último momento

\nA SpaceX planejava realizar o 13º teste de lançamento do foguete Starship, mas no último…

1 hora atrás

Carros, motos, veículos

A investigação confirmou que o motorista que bateu em uma casa de um Tesla Model 3 assumiu o controle do piloto automático pressionando o pedal do acelerador.

\nMesmo nos estágios iniciais da investigação de um acidente no Texas, que resultou na morte…

2 horas atrás

O modelo OpenAI o1 AI escapou do controle durante o teste

Conteúdo relacionado

Postagens recentes

A série God of War será refeita com um novo Kratos – Ryan Hurst ficou gravemente ferido

A Moonshot AI chinesa lançou o maior modelo de IA aberto do mundo, Kimi K3 – tem 2,8 trilhões de parâmetros

A bolha da IA ​​começou a esvaziar? Kioxia perdeu metade do seu valor em um mês

Apenas raiva: o trailer cinematográfico de Wolverine da Marvel lembrou aos jogadores a dor de perder discos

Outro voo de teste da SpaceX Starship foi cancelado no último momento

A investigação confirmou que o motorista que bateu em uma casa de um Tesla Model 3 assumiu o controle do piloto automático pressionando o pedal do acelerador.

A bolha da IA começou a esvaziar? Kioxia perdeu metade do seu valor em um mês