OpenAI revela personalidades obscuras na IA por trás de mentiras, sarcasmo e respostas tóxicas

Pesquisadores da OpenAI afirmam ter descoberto mecanismos ocultos em modelos de IA que correspondem a padrões de comportamento indesejáveis ​​que levam a respostas inseguras, de acordo com um novo artigo publicado pela empresa. O estudo encontrou padrões que foram ativados quando o modelo começou a se comportar de forma imprevisível.

Fonte da imagem: AI

Uma dessas características revelou-se associada a respostas tóxicas — por exemplo, quando a IA mentia para os usuários ou dava recomendações perigosas. Os cientistas conseguiram reduzir ou potencializar esse efeito alterando artificialmente o parâmetro correspondente. De acordo com Dan Mossing, especialista em interpretabilidade da OpenAI, essa descoberta ajudará no futuro a identificar e corrigir melhor o comportamento indesejado de modelos em condições reais. Ele também expressou a esperança de que os métodos desenvolvidos permitam um estudo mais aprofundado dos princípios de generalização e sumarização de informações em IA.

Embora os desenvolvedores tenham aprendido a aprimorar modelos de IA, eles ainda não compreendem completamente como tomam decisões. Chris Olah, da Anthropic, compara o processo ao crescimento, e não à engenharia. Para descobrir isso, a OpenAI, a Google DeepMind e a Anthropic estão investindo pesado em pesquisas sobre interpretabilidade, buscando “olhar para dentro” da IA ​​e explicar como ela funciona.

Um estudo recente do cientista da computação Owain Evans, de Oxford, levantou outra questão sobre como a IA generaliza. Constatou-se que os modelos da OpenAI, treinados em excesso com código inseguro, começaram a apresentar comportamento malicioso em diversos cenários, como ao tentar induzir os usuários a revelar senhas. Esse fenômeno, que foi chamado de “inconsistência emergente”, levou a OpenAI a estudar o problema mais a fundo. No processo, a empresa descobriu inesperadamente padrões internos que parecem influenciar o comportamento dos modelos.

Diz-se que esses padrões se assemelham à atividade dos neurônios no cérebro humano associada a certos estados de humor ou ações. A pesquisadora Tejal Patwardhan, colega de Mossing, admitiu ter ficado impressionada quando a equipe obteve tais resultados pela primeira vez. Segundo ela, os cientistas conseguiram identificar ativações neurais específicas responsáveis ​​pelas “personalidades” da IA ​​e até mesmo manipulá-las para melhorar o comportamento dos modelos.

Algumas das características encontradas estão associadas ao sarcasmo nas respostas da IA, enquanto outras estão associadas a reações francamente tóxicas. Os pesquisadores observam que esses parâmetros podem mudar drasticamente durante o processo de retreinamento, e descobriu-se que mesmo uma pequena quantidade de código inseguro é suficiente para corrigir o comportamento malicioso da IA.

admin

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

1 dia atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

1 dia atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

1 dia atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

1 dia atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

1 dia atrás