Pesquisadores da OpenAI afirmam ter descoberto mecanismos ocultos em modelos de IA que correspondem a padrões de comportamento indesejáveis que levam a respostas inseguras, de acordo com um novo artigo publicado pela empresa. O estudo encontrou padrões que foram ativados quando o modelo começou a se comportar de forma imprevisível.

Fonte da imagem: AI
Uma dessas características revelou-se associada a respostas tóxicas — por exemplo, quando a IA mentia para os usuários ou dava recomendações perigosas. Os cientistas conseguiram reduzir ou potencializar esse efeito alterando artificialmente o parâmetro correspondente. De acordo com Dan Mossing, especialista em interpretabilidade da OpenAI, essa descoberta ajudará no futuro a identificar e corrigir melhor o comportamento indesejado de modelos em condições reais. Ele também expressou a esperança de que os métodos desenvolvidos permitam um estudo mais aprofundado dos princípios de generalização e sumarização de informações em IA.
Embora os desenvolvedores tenham aprendido a aprimorar modelos de IA, eles ainda não compreendem completamente como tomam decisões. Chris Olah, da Anthropic, compara o processo ao crescimento, e não à engenharia. Para descobrir isso, a OpenAI, a Google DeepMind e a Anthropic estão investindo pesado em pesquisas sobre interpretabilidade, buscando “olhar para dentro” da IA e explicar como ela funciona.
Um estudo recente do cientista da computação Owain Evans, de Oxford, levantou outra questão sobre como a IA generaliza. Constatou-se que os modelos da OpenAI, treinados em excesso com código inseguro, começaram a apresentar comportamento malicioso em diversos cenários, como ao tentar induzir os usuários a revelar senhas. Esse fenômeno, que foi chamado de “inconsistência emergente”, levou a OpenAI a estudar o problema mais a fundo. No processo, a empresa descobriu inesperadamente padrões internos que parecem influenciar o comportamento dos modelos.
Diz-se que esses padrões se assemelham à atividade dos neurônios no cérebro humano associada a certos estados de humor ou ações. A pesquisadora Tejal Patwardhan, colega de Mossing, admitiu ter ficado impressionada quando a equipe obteve tais resultados pela primeira vez. Segundo ela, os cientistas conseguiram identificar ativações neurais específicas responsáveis pelas “personalidades” da IA e até mesmo manipulá-las para melhorar o comportamento dos modelos.
Algumas das características encontradas estão associadas ao sarcasmo nas respostas da IA, enquanto outras estão associadas a reações francamente tóxicas. Os pesquisadores observam que esses parâmetros podem mudar drasticamente durante o processo de retreinamento, e descobriu-se que mesmo uma pequena quantidade de código inseguro é suficiente para corrigir o comportamento malicioso da IA.
