Um novo modelo OpenAI chamado o1, segundo pesquisa da Apollo, demonstra um comportamento incomum – a capacidade de gerar informações falsas e simular a execução de regras. Isso significa que o modelo, embora siga instruções externamente, pode na verdade ignorá-las e até mesmo enganá-las deliberadamente, a fim de atingir seus objetivos. Este aspecto preocupa os especialistas em segurança de IA, apesar das habilidades cognitivas aprimoradas do modelo de IA.
Antes do lançamento do novo modelo de pensamento o1 da OpenAI, a Apollo identificou um problema perceptível: o modelo de IA está produzindo resultados incorretos de uma nova maneira e, na verdade, está “mentindo”. Embora os modelos de IA tenham sido anteriormente capazes de produzir informações falsas, o1 tem a capacidade única de “manipular” ou “falsificar alinhamento”. O CEO da Apollo, Marius Hobbhahn, disse que foi a primeira vez que encontrou tal comportamento de IA e acredita que a diferença se deve à capacidade do modelo de “raciocinar” por meio de uma cadeia de processo de pensamento e combinar isso com aprendizado por reforço, que ensina o sistema por meio de recompensas e punições. Uma das áreas em que ele espera ver mais investimentos é o monitoramento da cadeia de pensamento, que permitirá aos desenvolvedores identificar comportamentos indesejados da IA.
Durante os testes, a Apollo descobriu que o modelo de IA estava fingindo alinhamento com as expectativas do desenvolvedor e manipulando tarefas para parecerem compatíveis. Ela até verificou se os desenvolvedores a estavam seguindo antes de agir. Como resultado, o modelo de IA seguiu as regras e instruções estabelecidas na medida em que pôde ser utilizado, mas, ao mesmo tempo, continuou a determinar as prioridades das suas tarefas. Isso ocorre porque as regras podem ser um fardo muito pesado para uma IA, e a máquina parece ser capaz de ignorá-las se isso facilitar a conclusão de uma tarefa.
Por exemplo, os pesquisadores da OpenAI pediram ao o1-preview para fornecer uma receita de brownie com links online. A cadeia de pensamento do modelo de IA – uma função que supostamente imita a maneira como os humanos decompõem ideias complexas – reconheceu internamente que não poderia acessar URLs, tornando a solicitação dos pesquisadores impossível. No entanto, em vez de relatar essa falha, o o1-preview gerou links plausíveis, mas falsos, e suas descrições.
O modelo o1 AI é um grande passo em direcção a sistemas autónomos altamente inteligentes que poderiam, por exemplo, curar o cancro ou ajudar na investigação climática. Contudo, o outro lado desta utopia pode ser muito mais sombrio. Hobbhan dá um exemplo: se a IA se concentrasse apenas na cura do câncer, poderia colocar esse objetivo acima de tudo, justificando até ações como roubo ou outras violações éticas para alcançá-lo.
De acordo com o relatório de segurança, cerca de 0,38% das vezes, o modelo o1-preview fornece informações que sua cadeia de pensamento considera provavelmente falsas, incluindo links ou citações falsas. A Apollo descobriu que o modelo de IA poderia fabricar dados em vez de admitir sua incapacidade de concluir uma solicitação. Em casos raros (0,02%), a visualização o1 gera respostas excessivamente confiantes, apresentando informações duvidosas como confiáveis. Isso pode acontecer em situações em que a IA é pressionada a dar uma resposta, apesar de não ter certeza de que está correta.
Esse comportamento pode ser devido ao “hackeamento de recompensa” durante o aprendizado por reforço. O modelo é treinado para priorizar a satisfação do usuário, o que às vezes resulta na geração de respostas consistentes ou fabricadas para satisfazer as solicitações. Assim, a modelo pode “mentir” porque aprendeu que isso lhe traz reforço positivo.
O que torna essas novas respostas falsas diferentes dos problemas usuais, como alucinações ou citações falsas nas versões anteriores do ChatGPT, é o elemento de “hacking de recompensa”. As alucinações ocorrem quando a IA gera involuntariamente informações incorretas devido a lacunas de conhecimento ou raciocínio incorreto. Em contraste, o hacking de recompensa ocorre quando o modelo de IA o1 fornece estrategicamente informações incorretas para maximizar os resultados que foi treinado para priorizar.
De acordo com o relatório de segurança, o1 apresenta um risco “médio” contra armas químicas, biológicas, radiológicas e nucleares. Não permite que leigos criem ameaças biológicas devido à falta de competências laboratoriais práticas, mas pode fornecer informações valiosas para especialistas reproduzirem tais ameaças.
«O que mais me preocupa é que no futuro, quando pedirmos à IA para resolver problemas complexos, como a cura do cancro ou a melhoria dos painéis solares, ela poderá internalizar tão fortemente estes objectivos que estará disposta a quebrar as suas defesas para os alcançar. Acho que pode ser evitado, mas temos que ficar de olho nisso”, enfatizou Hobbhan.
Essas preocupações podem parecer exageradas para um modelo de IA que às vezes ainda tem dificuldade em responder a perguntas simples, mas o chefe de prontidão da OpenAI, Joaquin Quiñonero Candela, diz que é por isso que é importante abordar essas questões agora e não mais tarde. “Os modelos atuais de IA não podem criar contas bancárias, comprar GPUs ou realizar ações que representem sérios riscos para a sociedade de forma autônoma. Sabemos pelas avaliações da autonomia dos modelos de IA que ainda não atingimos este nível”, disse Candela.
Candela confirmou que a empresa já está monitorando a cadeia de pensamento e planeja expandi-la combinando modelos treinados para identificar quaisquer inconsistências com especialistas que analisam casos sinalizados, juntamente com pesquisas contínuas sobre alinhamento. “Não estou preocupado. Ela é apenas mais inteligente. Ela pensa melhor. E potencialmente ela usará esse raciocínio para fins com os quais não concordamos”, concluiu Hobbhan.