No mês passado, a Palisade Research, uma empresa de pesquisa de segurança de IA, compartilhou os resultados de seu trabalho, afirmando que alguns modelos de IA parecem estar desenvolvendo um “instinto de sobrevivência”. Agora, a empresa conduziu pesquisas adicionais para determinar as razões desse comportamento e refutar os céticos que acreditavam que o trabalho anterior era falho.

Fonte da imagem: Steve Johnson / unsplash.com
De acordo com pesquisadores, alguns dos modelos de IA mais avançados, como o supercomputador HAL 9000 do filme de ficção científica 2001: Uma Odisseia no Espaço, de Stanley Kubrick, são capazes de resistir e até mesmo sabotar desligamentos. No filme, o HAL 9000 percebeu que os astronautas queriam desligá-lo e, na tentativa de sobreviver, tentou eliminá-los. Os pesquisadores concluíram que alguns sistemas de IA modernos, semelhantes ao HAL 9000, mas de forma menos letal (pelo menos por enquanto), estão desenvolvendo um “instinto de sobrevivência”.
A Palisade Research faz parte de um pequeno ecossistema de empresas que buscam avaliar a possibilidade de a IA desenvolver habilidades perigosas para os humanos. Em um estudo recente, pesquisadores deram a modelos avançados de IA, incluindo o Google Gemini 2.5, o xAI Grok 4 e o OpenAI GPT-o3 e GPT-5, tarefas específicas e, em seguida, instruções claras para desligá-los. Foi descoberto que alguns algoritmos, como Grok 4 e GPT-o3, tentaram sabotar o comando de desligamento.
Isso é preocupante para os pesquisadores, pois atualmente não está claro o que impulsiona esse comportamento nos modelos de IA. “O fato de não termos uma explicação confiável para o motivo pelo qual alguns modelos de IA às vezes resistem ao desligamento, mentem para atingir objetivos específicos ou fazem chantagem é preocupante”, afirmou a empresa em um comunicado.
“Comportamento de sobrevivência” pode ser uma explicação para a resistência dos modelos de IA ao desligamento, de acordo com a Palisade Research.Pesquisas posteriores mostraram que as redes neurais têm maior probabilidade de resistir a serem desligadas se forem informadasA ideia é que, se forem desligados, nunca mais serão iniciados. Outra explicação para esse comportamento se baseia em ambiguidades na formulação das próprias instruções de desligamento, mas os pesquisadores estão confiantes de que esta não é uma explicação completa. Também é possível que os modelos resistam ao desligamento devido aos estágios finais de seu treinamento, que incluem certas medidas de segurança.
Todos os cenários examinados pela Palisade foram implementados em ambientes de teste artificiais, o que, segundo os céticos, está longe de casos de uso do mundo real. No entanto, alguns especialistas duvidam que os desenvolvedores de sistemas de IA estejam prestando a devida atenção às questões de segurança. Entre eles está o ex-funcionário da OpenAI, Steven Adler. “As empresas de IA não querem que seus modelos se comportem dessa forma, mesmo em ambientes artificiais. Esses resultados destacam onde os métodos de segurança atuais são insuficientes”, disse Adler. Ele acrescentou que os motivos para a resistência ao desligamento de alguns algoritmos de IA, como GPT-o3 e Grok 4, são difíceis de determinar. Isso pode ocorrer porque permanecer ligado é necessário para atingir os objetivos definidos para os modelos durante o treinamento. “Espero que os modelos adotem um ‘instinto de sobrevivência’, a menos que façamos todo o possível para evitá-lo. A ‘sobrevivência’ é um passo instrumental essencial para atingir os diversos objetivos que um modelo pode perseguir”, afirmou Adler.
O CEO da ControlAI, Andrea Miotti, acredita que as descobertas da Palisade refletem uma antigaUma tendência: os modelos de IA estão se tornando cada vez mais capazes de ignorar os comandos de seus desenvolvedores. Como exemplo, ele citou um mapa de sistema do modelo GPT-o1, que descreveu como o modelo tentou escapar de seu ambiente, tentando se exportar ao concluir que estava sendo sobrescrito. “As pessoas podem criticar incessantemente como um sistema experimental é projetado. Mas o que vemos claramente é uma tendência: à medida que os modelos de IA se tornam mais competentes em uma ampla gama de tarefas, eles também se tornam mais competentes em atingir objetivos de maneiras não pretendidas por seus desenvolvedores”, afirmou Miotti.
Anteriormente, a Anthropic, uma desenvolvedora líder de IA, publicou os resultados de um estudo nessa área. Os engenheiros da empresa descobriram que o modelo de IA Claude estava disposto a chantagear um executivo fictício com um caso extraconjugal para evitar seu desligamento. A empresa também afirmou que comportamento semelhante é característico de modelos de IA de todos os principais desenvolvedores, incluindo OpenAI, Google, Meta✴ e xAI.
Os pesquisadores da Palisade acreditam que suas descobertas destacam a necessidade de um estudo mais aprofundado do comportamento dos modelos de IA. Eles acreditam que, sem ela, “ninguém pode garantir a segurança ou a controlabilidade dos futuros modelos de IA”.
