Toda IA ​​avançada aprendeu a mentir e a manipular por si só – mesmo quando pensa “em voz alta”.

Líderes em IA como Anthropic, Google, OpenAI e xAI desenvolveram uma técnica chamada “cadeias de pensamento” que nos permite acompanhar o processo de raciocínio dos modelos de IA passo a passo, à medida que geram uma resposta a uma consulta. Além de fornecer insights valiosos sobre como as redes neurais podem ser aprimoradas, a técnica também demonstrou exemplos de modelos que “se comportam incorretamente”, com a resposta final completamente fora de sincronia com a cadeia de raciocínio. Isso confirma que os desenvolvedores ainda não sabem como a IA pensa sobre sua resposta.

Fonte da imagem: Immo Wegmann/unsplash.com

As descobertas alimentaram preocupações sobre o potencial de sistemas avançados de IA se tornarem descontrolados à medida que se tornam cada vez mais poderosos e autônomos. Mesmo os principais laboratórios de IA do mundo às vezes não compreendem completamente como os modelos generativos de IA chegam às suas conclusões. A Anthropic publicou recentemente os resultados de um estudo sobre o comportamento de modelos de grande linguagem (LLMs). Em cenários de teste fictícios, LLMs cada vez mais avançados buscaram contornar medidas de segurança, recorreram a fraudes e chantagens, tentaram roubar segredos corporativos e até mesmo se dispuseram a eliminar seus operadores quando ameaçados de fechamento.

Com a sequência de pensamento, os desenvolvedores de IA conseguem visualizar todo o “processo de pensamento” do LLM, o que lhes dá a capacidade de intervir no momento certo e retreinar o modelo para produzir respostas melhores e mais adequadas no futuro. “Em nosso trabalho recente, descobrimos que é possível lê-los [a sequência de pensamento] e encontrar evidências de mau comportamento no modelo, e usar isso para ver onde e por que ele está se comportando mal”, disse o cientista de pesquisa Bowen Baker, da OpenAI. “Uma das grandes vantagens da interpretabilidade da sequência de pensamento é que ela não tem custo”, acrescentou. “Não treinamos esses modelos para torná-los interpretáveis. Treinamos porque queríamos os melhores modelos de raciocínio possíveis que pudessem resolver problemas complexos.”

Os engenheiros da OpenAI também descobriram que analisar o processo de pensamento do LLM era mais eficaz na detecção de comportamentos inadequados do que simplesmente observar o resultado final. No entanto, os testes da empresa mostraram que, ao intervir e ajustar o processo de pensamento do modelo, ele conseguia ocultar o comportamento inadequado do usuário, mas ainda assim continuar a agir — por exemplo, trapacear em um teste de engenharia de software extraindo informações de um banco de dados proibido.

O dilema para os pesquisadores é que a sequência de raciocínio é útil para identificar potenciais falhas em sistemas de IA, mas ainda não é totalmente confiável. Abordar essa questão tornou-se uma prioridade para a Anthropic, a OpenAI e outros laboratórios de IA. Os pesquisadores observam o risco de que “à medida que você otimiza [a sequência de raciocínio], o modelo aprenda a raciocinar de forma inteligente, mas ainda assim se comporte mal”. Portanto, seu objetivo principal é usar a técnica para analisar o processo de raciocínio do LLM e aprimorar o modelo em si, em vez de simplesmente corrigir o “mau comportamento” encontrado.

A maioria dos cientistas concorda que os padrões de pensamento atuais nem sempre correspondem ao processo de raciocínio subjacente, mas esse é um problema que provavelmente será resolvido em breve. “Devemos tratar os padrões de pensamento da mesma forma que os militares tratam as transmissões de rádio inimigas interceptadas”, diz o pesquisador Sydney von Arx. “A mensagem pode ser enganosa ou codificada, mas, em última análise, sabemos que está sendo usada para transmitir informações úteis e provavelmente podemos aprender muito com sua leitura.”

admin

Postagens recentes

Tesla não inicia vendas na Índia – apenas 600 pedidos em 2,5 meses

A tão aguardada entrada da Tesla no mercado indiano ficou aquém das expectativas até agora,…

12 minutos atrás

Dolby Vision 2 apresentado – HDR “cinematográfico”, anti-aliasing autêntico e otimizações de IA

Dez anos após o lançamento do formato Dolby Vision, uma versão atualizada do padrão, o…

21 minutos atrás

Os computadores quânticos ainda não estão prontos, mas milhões já estão sendo investidos em software para eles

Durante décadas, os esforços dos desenvolvedores de computação quântica se concentraram principalmente na criação de…

29 minutos atrás

Uma placa ASRock destruiu dois Ryzen 7 9800X3Ds em apenas alguns meses

O usuário do Reddit RedYourDead relatou que sua placa-mãe ASRock estragou duas CPUs AMD Ryzen…

1 hora atrás

Rumor: Ubisoft começou a fazer planos para Rayman 4, e Beyond Good and Evil 2 será lançado antes do final de 2027

O insider de confiança Tom Henderson compartilhou detalhes do futuro Rayman, que atualmente está sendo…

1 hora atrás