Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

OpenAI revela personalidades obscuras na IA por trás de mentiras, sarcasmo e respostas tóxicas

Pesquisadores da OpenAI afirmam ter descoberto mecanismos ocultos em modelos de IA que correspondem a padrões de comportamento indesejáveis que levam a respostas inseguras, de acordo com um novo artigo publicado pela empresa. O estudo encontrou padrões que foram ativados quando o modelo começou a se comportar de forma imprevisível.

Fonte da imagem: AI

Uma dessas características revelou-se associada a respostas tóxicas — por exemplo, quando a IA mentia para os usuários ou dava recomendações perigosas. Os cientistas conseguiram reduzir ou potencializar esse efeito alterando artificialmente o parâmetro correspondente. De acordo com Dan Mossing, especialista em interpretabilidade da OpenAI, essa descoberta ajudará no futuro a identificar e corrigir melhor o comportamento indesejado de modelos em condições reais. Ele também expressou a esperança de que os métodos desenvolvidos permitam um estudo mais aprofundado dos princípios de generalização e sumarização de informações em IA.

Embora os desenvolvedores tenham aprendido a aprimorar modelos de IA, eles ainda não compreendem completamente como tomam decisões. Chris Olah, da Anthropic, compara o processo ao crescimento, e não à engenharia. Para descobrir isso, a OpenAI, a Google DeepMind e a Anthropic estão investindo pesado em pesquisas sobre interpretabilidade, buscando “olhar para dentro” da IA e explicar como ela funciona.

Um estudo recente do cientista da computação Owain Evans, de Oxford, levantou outra questão sobre como a IA generaliza. Constatou-se que os modelos da OpenAI, treinados em excesso com código inseguro, começaram a apresentar comportamento malicioso em diversos cenários, como ao tentar induzir os usuários a revelar senhas. Esse fenômeno, que foi chamado de “inconsistência emergente”, levou a OpenAI a estudar o problema mais a fundo. No processo, a empresa descobriu inesperadamente padrões internos que parecem influenciar o comportamento dos modelos.

Diz-se que esses padrões se assemelham à atividade dos neurônios no cérebro humano associada a certos estados de humor ou ações. A pesquisadora Tejal Patwardhan, colega de Mossing, admitiu ter ficado impressionada quando a equipe obteve tais resultados pela primeira vez. Segundo ela, os cientistas conseguiram identificar ativações neurais específicas responsáveis pelas “personalidades” da IA e até mesmo manipulá-las para melhorar o comportamento dos modelos.

Algumas das características encontradas estão associadas ao sarcasmo nas respostas da IA, enquanto outras estão associadas a reações francamente tóxicas. Os pesquisadores observam que esses parâmetros podem mudar drasticamente durante o processo de retreinamento, e descobriu-se que mesmo uma pequena quantidade de código inseguro é suficiente para corrigir o comportamento malicioso da IA.

admin

Próximo Microsoft vai demitir milhares de funcionários — tudo em prol da inteligência artificial »

Anterior « Asus atualiza o laptop ProArt P16 Creator com GeForce RTX 5070 e Ryzen AI 9 HX 370

Deixar comentário

Publicado por

admin

8 meses atrás

Postagens recentes

Comentários sobre eventos recentes

A Apple se recusou a implementar Claude na Siri devido à insaciabilidade da Anthropic.

A Apple abandonou o modelo de IA Claude da Anthropic para aprimorar a Siri e,…

3 horas atrás

Processadores

A Intel apresentou um protótipo de um enorme chip de IA com quatro unidades lógicas e 12 módulos HBM4.

A Intel Foundry divulgou um relatório técnico detalhando as soluções avançadas de design e implementação…

11 horas atrás

Desenvolvimento e fabricação de eletrônicos

A Samsung, a SK Hynix e a Micron estão reavaliando todos os pedidos de memória para evitar compras em grande quantidade.

Segundo o Nikkei Asia, três grandes fabricantes de chips de memória — Micron, SK Hynix…

11 horas atrás

Consoles de jogos

O console portátil MSI Claw A8 com Ryzen Z2 Extreme chegou aos EUA e à Europa, com preço de US$ 1.149 para a versão com 24 GB de RAM.

O MSI Claw A8 é o primeiro console portátil da empresa baseado na plataforma AMD.…

14 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A SK Hynix supera a Samsung em lucro anual pela primeira vez em meio ao boom da IA.

Historicamente, a Samsung Electronics tem sido consistentemente a maior fornecedora mundial de componentes semicondutores em…

15 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O maior investimento da Nvidia será na OpenAI, mas não estamos falando de 100 bilhões de dólares.

Na última semana, as discussões sobre a relação entre a Nvidia e a OpenAI voltaram…

20 horas atrás