OpenAI revela personalidades obscuras na IA por trás de mentiras, sarcasmo e respostas tóxicas

Pesquisadores da OpenAI afirmam ter descoberto mecanismos ocultos em modelos de IA que correspondem a padrões de comportamento indesejáveis ​​que levam a respostas inseguras, de acordo com um novo artigo publicado pela empresa. O estudo encontrou padrões que foram ativados quando o modelo começou a se comportar de forma imprevisível.

Fonte da imagem: AI

Uma dessas características revelou-se associada a respostas tóxicas — por exemplo, quando a IA mentia para os usuários ou dava recomendações perigosas. Os cientistas conseguiram reduzir ou potencializar esse efeito alterando artificialmente o parâmetro correspondente. De acordo com Dan Mossing, especialista em interpretabilidade da OpenAI, essa descoberta ajudará no futuro a identificar e corrigir melhor o comportamento indesejado de modelos em condições reais. Ele também expressou a esperança de que os métodos desenvolvidos permitam um estudo mais aprofundado dos princípios de generalização e sumarização de informações em IA.

Embora os desenvolvedores tenham aprendido a aprimorar modelos de IA, eles ainda não compreendem completamente como tomam decisões. Chris Olah, da Anthropic, compara o processo ao crescimento, e não à engenharia. Para descobrir isso, a OpenAI, a Google DeepMind e a Anthropic estão investindo pesado em pesquisas sobre interpretabilidade, buscando “olhar para dentro” da IA ​​e explicar como ela funciona.

Um estudo recente do cientista da computação Owain Evans, de Oxford, levantou outra questão sobre como a IA generaliza. Constatou-se que os modelos da OpenAI, treinados em excesso com código inseguro, começaram a apresentar comportamento malicioso em diversos cenários, como ao tentar induzir os usuários a revelar senhas. Esse fenômeno, que foi chamado de “inconsistência emergente”, levou a OpenAI a estudar o problema mais a fundo. No processo, a empresa descobriu inesperadamente padrões internos que parecem influenciar o comportamento dos modelos.

Diz-se que esses padrões se assemelham à atividade dos neurônios no cérebro humano associada a certos estados de humor ou ações. A pesquisadora Tejal Patwardhan, colega de Mossing, admitiu ter ficado impressionada quando a equipe obteve tais resultados pela primeira vez. Segundo ela, os cientistas conseguiram identificar ativações neurais específicas responsáveis ​​pelas “personalidades” da IA ​​e até mesmo manipulá-las para melhorar o comportamento dos modelos.

Algumas das características encontradas estão associadas ao sarcasmo nas respostas da IA, enquanto outras estão associadas a reações francamente tóxicas. Os pesquisadores observam que esses parâmetros podem mudar drasticamente durante o processo de retreinamento, e descobriu-se que mesmo uma pequena quantidade de código inseguro é suficiente para corrigir o comportamento malicioso da IA.

admin

Postagens recentes

Alterego revela dispositivo vestível com “habilidades quase telepáticas” para comunicação na velocidade do pensamento

A startup Alterego revelou “o primeiro dispositivo vestível do mundo com capacidades quase telepáticas”. Segundo…

36 minutos atrás

Servidores e racks sem cabos da Softbank ajudarão robôs a substituir humanos em data centers

A SoftBank Corporation anunciou o desenvolvimento de um novo rack para servidores sem cabos. Isso…

44 minutos atrás

Asus lança placa de vídeo ProArt GeForce RTX 5080 OC com acabamento em madeira e USB-C

A Asus anunciou que a placa de vídeo ProArt GeForce RTX 5080 OC Edition já…

1 hora atrás

Mais rápido e inteligente: SiFive revela segunda geração de núcleos inteligentes RISC-V

A SiFive apresenta a segunda geração da família RISC-V Intelligent Core, que inclui os novos…

1 hora atrás