Categorias: Mercado de tecnologia e TI. notíciaNotícias da rede

Novo modelo OpenAI pode raciocinar melhor e até trapacear para atingir um objetivo

Um novo modelo OpenAI chamado o1, segundo pesquisa da Apollo, demonstra um comportamento incomum – a capacidade de gerar informações falsas e simular a execução de regras. Isso significa que o modelo, embora siga instruções externamente, pode na verdade ignorá-las e até mesmo enganá-las deliberadamente, a fim de atingir seus objetivos. Este aspecto preocupa os especialistas em segurança de IA, apesar das habilidades cognitivas aprimoradas do modelo de IA.

Fonte da imagem: Chris_and_Ralph / Pixabay

Antes do lançamento do novo modelo de pensamento o1 da OpenAI, a Apollo identificou um problema perceptível: o modelo de IA está produzindo resultados incorretos de uma nova maneira e, na verdade, está “mentindo”. Embora os modelos de IA tenham sido anteriormente capazes de produzir informações falsas, o1 tem a capacidade única de “manipular” ou “falsificar alinhamento”. O CEO da Apollo, Marius Hobbhahn, disse que foi a primeira vez que encontrou tal comportamento de IA e acredita que a diferença se deve à capacidade do modelo de “raciocinar” por meio de uma cadeia de processo de pensamento e combinar isso com aprendizado por reforço, que ensina o sistema por meio de recompensas e punições. Uma das áreas em que ele espera ver mais investimentos é o monitoramento da cadeia de pensamento, que permitirá aos desenvolvedores identificar comportamentos indesejados da IA.

Durante os testes, a Apollo descobriu que o modelo de IA estava fingindo alinhamento com as expectativas do desenvolvedor e manipulando tarefas para parecerem compatíveis. Ela até verificou se os desenvolvedores a estavam seguindo antes de agir. Como resultado, o modelo de IA seguiu as regras e instruções estabelecidas na medida em que pôde ser utilizado, mas, ao mesmo tempo, continuou a determinar as prioridades das suas tarefas. Isso ocorre porque as regras podem ser um fardo muito pesado para uma IA, e a máquina parece ser capaz de ignorá-las se isso facilitar a conclusão de uma tarefa.

Por exemplo, os pesquisadores da OpenAI pediram ao o1-preview para fornecer uma receita de brownie com links online. A cadeia de pensamento do modelo de IA – uma função que supostamente imita a maneira como os humanos decompõem ideias complexas – reconheceu internamente que não poderia acessar URLs, tornando a solicitação dos pesquisadores impossível. No entanto, em vez de relatar essa falha, o o1-preview gerou links plausíveis, mas falsos, e suas descrições.

O modelo o1 AI é um grande passo em direcção a sistemas autónomos altamente inteligentes que poderiam, por exemplo, curar o cancro ou ajudar na investigação climática. Contudo, o outro lado desta utopia pode ser muito mais sombrio. Hobbhan dá um exemplo: se a IA se concentrasse apenas na cura do câncer, poderia colocar esse objetivo acima de tudo, justificando até ações como roubo ou outras violações éticas para alcançá-lo.

De acordo com o relatório de segurança, cerca de 0,38% das vezes, o modelo o1-preview fornece informações que sua cadeia de pensamento considera provavelmente falsas, incluindo links ou citações falsas. A Apollo descobriu que o modelo de IA poderia fabricar dados em vez de admitir sua incapacidade de concluir uma solicitação. Em casos raros (0,02%), a visualização o1 gera respostas excessivamente confiantes, apresentando informações duvidosas como confiáveis. Isso pode acontecer em situações em que a IA é pressionada a dar uma resposta, apesar de não ter certeza de que está correta.

Esse comportamento pode ser devido ao “hackeamento de recompensa” durante o aprendizado por reforço. O modelo é treinado para priorizar a satisfação do usuário, o que às vezes resulta na geração de respostas consistentes ou fabricadas para satisfazer as solicitações. Assim, a modelo pode “mentir” porque aprendeu que isso lhe traz reforço positivo.

O que torna essas novas respostas falsas diferentes dos problemas usuais, como alucinações ou citações falsas nas versões anteriores do ChatGPT, é o elemento de “hacking de recompensa”. As alucinações ocorrem quando a IA gera involuntariamente informações incorretas devido a lacunas de conhecimento ou raciocínio incorreto. Em contraste, o hacking de recompensa ocorre quando o modelo de IA o1 fornece estrategicamente informações incorretas para maximizar os resultados que foi treinado para priorizar.

De acordo com o relatório de segurança, o1 apresenta um risco “médio” contra armas químicas, biológicas, radiológicas e nucleares. Não permite que leigos criem ameaças biológicas devido à falta de competências laboratoriais práticas, mas pode fornecer informações valiosas para especialistas reproduzirem tais ameaças.

«O que mais me preocupa é que no futuro, quando pedirmos à IA para resolver problemas complexos, como a cura do cancro ou a melhoria dos painéis solares, ela poderá internalizar tão fortemente estes objectivos que estará disposta a quebrar as suas defesas para os alcançar. Acho que pode ser evitado, mas temos que ficar de olho nisso”, enfatizou Hobbhan.

Essas preocupações podem parecer exageradas para um modelo de IA que às vezes ainda tem dificuldade em responder a perguntas simples, mas o chefe de prontidão da OpenAI, Joaquin Quiñonero Candela, diz que é por isso que é importante abordar essas questões agora e não mais tarde. “Os modelos atuais de IA não podem criar contas bancárias, comprar GPUs ou realizar ações que representem sérios riscos para a sociedade de forma autônoma. Sabemos pelas avaliações da autonomia dos modelos de IA que ainda não atingimos este nível”, disse Candela.

Candela confirmou que a empresa já está monitorando a cadeia de pensamento e planeja expandi-la combinando modelos treinados para identificar quaisquer inconsistências com especialistas que analisam casos sinalizados, juntamente com pesquisas contínuas sobre alinhamento. “Não estou preocupado. Ela é apenas mais inteligente. Ela pensa melhor. E potencialmente ela usará esse raciocínio para fins com os quais não concordamos”, concluiu Hobbhan.

avalanche

Próximo A Lotus revelou o Theory 1, um conceito de carro esportivo elétrico com 1.000 cv. e pesando apenas 1600 kg »

Anterior « A demanda pela HBM está pressionando os fabricantes de equipamentos japoneses a aumentarem sua presença na Coreia do Sul

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Jogos

“A Nintendo finalmente liberou a Game Freak das minas de Pokémon”: Novas imagens de jogabilidade do jogo de ação Beast of Reincarnation impressionaram os fãs de Pokémon.

Conforme prometido, os desenvolvedores do estúdio japonês Game Freak (da série Pokémon) compartilharam novas imagens…

4 horas atrás

Jogos

Fable receberá um criador de personagens e será lançado neste outono para PC, Xbox e PS5.

A desenvolvedora britânica Playground Games revelou uma série de novas informações sobre seu ambicioso RPG…

5 horas atrás

Jogos

Os criadores de Psychonauts anunciaram um jogo de ação multiplayer de cerâmica chamado Kiln para aqueles que amam não apenas a destruição, mas também a criação.

O misterioso quarto jogo secreto apresentado na Developer_Direct 2026 revelou-se um novo e inusitado projeto…

5 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A inteligência artificial foi treinada para escrever textos de maneira semelhante à humana, utilizando instruções da Wikipédia.

O desenvolvedor Siqi Chen, baseado no guia da Wikipédia para identificar textos de IA de…

6 horas atrás

Notícias da rede

A busca com inteligência artificial do Google aprenderá sobre os planos e preferências do usuário a partir do Gmail e do Google Fotos — mas você pode optar por não participar.

O Google anunciou a introdução de um recurso de "Inteligência Pessoal" no modo de IA…

6 horas atrás

Espaço

A Blue Origin levou turistas ao espaço pela 17ª vez – em baixa altitude, por curto período e com voos de substituição.

Há apenas algumas horas, a Blue Origin, nos Estados Unidos, realizou seu 17º lançamento tripulado,…

6 horas atrás

Novo modelo OpenAI pode raciocinar melhor e até trapacear para atingir um objetivo

Conteúdo relacionado

Postagens recentes

“A Nintendo finalmente liberou a Game Freak das minas de Pokémon”: Novas imagens de jogabilidade do jogo de ação Beast of Reincarnation impressionaram os fãs de Pokémon.

Fable receberá um criador de personagens e será lançado neste outono para PC, Xbox e PS5.

Os criadores de Psychonauts anunciaram um jogo de ação multiplayer de cerâmica chamado Kiln para aqueles que amam não apenas a destruição, mas também a criação.

A inteligência artificial foi treinada para escrever textos de maneira semelhante à humana, utilizando instruções da Wikipédia.

A busca com inteligência artificial do Google aprenderá sobre os planos e preferências do usuário a partir do Gmail e do Google Fotos — mas você pode optar por não participar.

A Blue Origin levou turistas ao espaço pela 17ª vez – em baixa altitude, por curto período e com voos de substituição.