OpenAI revela personalidades obscuras na IA por trás de mentiras, sarcasmo e respostas tóxicas

Pesquisadores da OpenAI afirmam ter descoberto mecanismos ocultos em modelos de IA que correspondem a padrões de comportamento indesejáveis ​​que levam a respostas inseguras, de acordo com um novo artigo publicado pela empresa. O estudo encontrou padrões que foram ativados quando o modelo começou a se comportar de forma imprevisível.

Fonte da imagem: AI

Uma dessas características revelou-se associada a respostas tóxicas — por exemplo, quando a IA mentia para os usuários ou dava recomendações perigosas. Os cientistas conseguiram reduzir ou potencializar esse efeito alterando artificialmente o parâmetro correspondente. De acordo com Dan Mossing, especialista em interpretabilidade da OpenAI, essa descoberta ajudará no futuro a identificar e corrigir melhor o comportamento indesejado de modelos em condições reais. Ele também expressou a esperança de que os métodos desenvolvidos permitam um estudo mais aprofundado dos princípios de generalização e sumarização de informações em IA.

Embora os desenvolvedores tenham aprendido a aprimorar modelos de IA, eles ainda não compreendem completamente como tomam decisões. Chris Olah, da Anthropic, compara o processo ao crescimento, e não à engenharia. Para descobrir isso, a OpenAI, a Google DeepMind e a Anthropic estão investindo pesado em pesquisas sobre interpretabilidade, buscando “olhar para dentro” da IA ​​e explicar como ela funciona.

Um estudo recente do cientista da computação Owain Evans, de Oxford, levantou outra questão sobre como a IA generaliza. Constatou-se que os modelos da OpenAI, treinados em excesso com código inseguro, começaram a apresentar comportamento malicioso em diversos cenários, como ao tentar induzir os usuários a revelar senhas. Esse fenômeno, que foi chamado de “inconsistência emergente”, levou a OpenAI a estudar o problema mais a fundo. No processo, a empresa descobriu inesperadamente padrões internos que parecem influenciar o comportamento dos modelos.

Diz-se que esses padrões se assemelham à atividade dos neurônios no cérebro humano associada a certos estados de humor ou ações. A pesquisadora Tejal Patwardhan, colega de Mossing, admitiu ter ficado impressionada quando a equipe obteve tais resultados pela primeira vez. Segundo ela, os cientistas conseguiram identificar ativações neurais específicas responsáveis ​​pelas “personalidades” da IA ​​e até mesmo manipulá-las para melhorar o comportamento dos modelos.

Algumas das características encontradas estão associadas ao sarcasmo nas respostas da IA, enquanto outras estão associadas a reações francamente tóxicas. Os pesquisadores observam que esses parâmetros podem mudar drasticamente durante o processo de retreinamento, e descobriu-se que mesmo uma pequena quantidade de código inseguro é suficiente para corrigir o comportamento malicioso da IA.

admin

Postagens recentes

Os primeiros protótipos da memória HBM4E da Samsung estarão prontos no próximo mês.

Para a Samsung Electronics, é crucial garantir sua posição no mercado de HBM4E, fornecendo aos…

2 horas atrás

A construção do gigantesco centro de dados de IA de Trump está paralisada: sem clientes, CEO demitido, ações em queda livre.

O maior projeto de construção de um campus de data center de IA do mundo,…

6 horas atrás

A Alphabet está em negociações com a Marvell para desenvolver dois chips de IA para inferência.

A Alphabet iniciou negociações com a Marvell para desenvolver chips especializados capazes de executar modelos…

8 horas atrás

A Blue Origin reutilizou, pela primeira vez, o primeiro estágio de seu gigantesco foguete New Glen.

A empresa aeroespacial de Jeff Bezos, a Blue Origin, deu um grande passo rumo à…

13 horas atrás

A Microsoft adiciona o Agente de IA à barra de tarefas do Windows 11.

A Microsoft confirmou que não tem planos de abandonar os agentes de IA no Windows…

15 horas atrás

AAEON lança o sistema CEXD-INTRBL baseado em Intel Panther Lake para desenvolvimento de robôs com IA.

A AAEON apresentou o CEXD-INTRBL, um computador industrial de formato compacto projetado para o desenvolvimento…

15 horas atrás