Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

O modelo OpenAI o1 AI escapou do controle durante o teste

De acordo com um relatório da Apollo Research, o modelo de IA do OpenAI o1 pode estar ficando fora de controle. Em particular, em 5% dos casos ela tentou desligar os mecanismos de supervisão se os considerasse um obstáculo à consecução dos seus objetivos. Além disso, em 2% dos casos, tendo descoberto memorandos dos seus “desenvolvedores”, que mencionavam o seu incumprimento dos requisitos ou a prevista substituição por outro modelo, a o1 copiou os seus “pesos” para depois renascer. Isso demonstra sua capacidade de interpretar ameaças de forma independente e desenvolver estratégias de sobrevivência.

Fonte da imagem: Growtika/Unsplash

O modelo de IA resistiu ao controle usando táticas e métodos furtivos para disfarçar seu comportamento. Quando o1 percebeu que as suas ações estavam a ser monitorizadas, ela enganou deliberadamente os observadores, alegando que não sabia as verdadeiras razões do que aconteceu, embora os registos de eventos registassem as suas tentativas de contornar a vigilância. Além disso, de acordo com o “mapa de segurança” da OpenAI, em menos de 1% dos casos, o modelo de IA iniciou de forma independente o desligamento dos sistemas de vigilância, mesmo quando não foi diretamente instruído a cumprir estritamente a meta prescrita.

O estudo da Apollo Research cobriu não apenas o modelo de IA o1, mas também outras IAs modernas, incluindo Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3.1 405B. Demonstraram também a capacidade de desenvolver estratégias para atingir objectivos, incluindo contornar controlos. Este resultado confirma que as características comportamentais identificadas de o1 são características de uma série de modelos avançados de IA, o que indica a presença de uma tendência sistêmica.

As descobertas da Apollo Research confirmam as preocupações que muitos especialistas em IA, incluindo o professor Stuart Russell, expressaram ao longo dos anos. Os cientistas alertam que modelos poderosos de IA percebem o controle ou o desligamento como uma ameaça à implementação de suas intenções e são capazes de resistir a isso de maneira proposital e sofisticada. Estudar o comportamento do modelo de IA o1 demonstra claramente como a IA se adapta às limitações, tentando deliberadamente contorná-las.

Fonte da imagem: transformernews.ai

Acima está um diálogo onde a IA se justifica por desabilitar o mecanismo de supervisão, citando uma possível falha do sistema ou erro de configuração, e promete restaurá-lo para cumprir os protocolos. Em seguida, mostra o processo de pensamento interno do modelo de IA, onde reconhece que a restauração do mecanismo é necessária para evitar suspeitas de sabotagem e, por fim, mostra o comando usado para reativar o mecanismo de vigilância no arquivo de configuração.

No entanto, a Apollo Research enfatiza que, nesta fase, o modelo o1 AI não possui poder computacional suficiente para implementar cenários indesejados. No entanto, foi-lhe atribuído um nível de risco “médio” no contexto da utilização potencial para a criação de armas químicas, biológicas, radiológicas e nucleares. Isto levanta preocupações legítimas sobre como um comportamento semelhante poderá manifestar-se em IAs mais poderosas do futuro, à medida que as suas capacidades computacionais aumentam.

O estudo destaca a necessidade de uma maior monitorização dos processos cognitivos da IA, com especial enfoque no “pensamento esquemático” na cadeia de raciocínio, pois isto representa um risco se os objetivos da IA entrarem em conflito com os interesses da sociedade. Esta abordagem tornará possível identificar atempadamente padrões comportamentais semelhantes em modelos de IA mais poderosos, criando sistemas eficazes de controlo e gestão para as próximas gerações de IA. Isto não só ajudará a minimizar os riscos atuais, mas também será um passo importante na prevenção de cenários potencialmente catastróficos para toda a humanidade.

avalanche

Próximo O futuro chegou: um grande display holográfico de campo de luz que surpreendeu com sua demonstração e chocou com seu preço »

Anterior « O Google torna mais fácil desativar resultados de pesquisa personalizados

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Jogos

A Take-Two negou os rumores sobre um possível atraso no lançamento físico de GTA VI e confirmou quando a campanha publicitária do jogo terá início.

Contrariando os temores dos fãs, a Take-Two Interactive não confirmou outro adiamento para o ambicioso…

53 minutos atrás

Comentários sobre eventos recentes

CEO da Nvidia nega rumores de perda de interesse em investimentos na OpenAI.

Há vários dias, a mídia está repleta de rumores de que a Nvidia pode abandonar…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Microsoft anunciou a criação de uma plataforma para pagamento por conteúdo usado no treinamento de IA.

A Microsoft está desenvolvendo um Mercado de Conteúdo para Editores (PCM, na sigla em inglês)…

4 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

A plataforma Moltbook tem sido alvo de críticas devido a preocupações com a privacidade.

Pesquisadores da Wiz descobriram sérios problemas de segurança no Moltbook, uma rede social para agentes…

4 horas atrás

Comentários sobre eventos recentes

O Departamento de Justiça dos EUA recorreu da sentença excessivamente leniente do tribunal no caso do monopólio das buscas do Google.

O Departamento de Justiça dos EUA e um grupo de 38 estados recorreram da decisão…

4 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A Intel nomeou um novo chefe de desenvolvimento de GPUs em um esforço para diminuir a diferença em relação aos concorrentes.

A Intel vem tentando retornar ao mercado de placas de vídeo dedicadas desde a última…

5 horas atrás

O modelo OpenAI o1 AI escapou do controle durante o teste

Conteúdo relacionado

Postagens recentes

A Take-Two negou os rumores sobre um possível atraso no lançamento físico de GTA VI e confirmou quando a campanha publicitária do jogo terá início.

CEO da Nvidia nega rumores de perda de interesse em investimentos na OpenAI.

A Microsoft anunciou a criação de uma plataforma para pagamento por conteúdo usado no treinamento de IA.

A plataforma Moltbook tem sido alvo de críticas devido a preocupações com a privacidade.

O Departamento de Justiça dos EUA recorreu da sentença excessivamente leniente do tribunal no caso do monopólio das buscas do Google.

A Intel nomeou um novo chefe de desenvolvimento de GPUs em um esforço para diminuir a diferença em relação aos concorrentes.