Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Toda IA avançada aprendeu a mentir e a manipular por si só – mesmo quando pensa “em voz alta”.

Líderes em IA como Anthropic, Google, OpenAI e xAI desenvolveram uma técnica chamada “cadeias de pensamento” que nos permite acompanhar o processo de raciocínio dos modelos de IA passo a passo, à medida que geram uma resposta a uma consulta. Além de fornecer insights valiosos sobre como as redes neurais podem ser aprimoradas, a técnica também demonstrou exemplos de modelos que “se comportam incorretamente”, com a resposta final completamente fora de sincronia com a cadeia de raciocínio. Isso confirma que os desenvolvedores ainda não sabem como a IA pensa sobre sua resposta.

Fonte da imagem: Immo Wegmann/unsplash.com

As descobertas alimentaram preocupações sobre o potencial de sistemas avançados de IA se tornarem descontrolados à medida que se tornam cada vez mais poderosos e autônomos. Mesmo os principais laboratórios de IA do mundo às vezes não compreendem completamente como os modelos generativos de IA chegam às suas conclusões. A Anthropic publicou recentemente os resultados de um estudo sobre o comportamento de modelos de grande linguagem (LLMs). Em cenários de teste fictícios, LLMs cada vez mais avançados buscaram contornar medidas de segurança, recorreram a fraudes e chantagens, tentaram roubar segredos corporativos e até mesmo se dispuseram a eliminar seus operadores quando ameaçados de fechamento.

Com a sequência de pensamento, os desenvolvedores de IA conseguem visualizar todo o “processo de pensamento” do LLM, o que lhes dá a capacidade de intervir no momento certo e retreinar o modelo para produzir respostas melhores e mais adequadas no futuro. “Em nosso trabalho recente, descobrimos que é possível lê-los [a sequência de pensamento] e encontrar evidências de mau comportamento no modelo, e usar isso para ver onde e por que ele está se comportando mal”, disse o cientista de pesquisa Bowen Baker, da OpenAI. “Uma das grandes vantagens da interpretabilidade da sequência de pensamento é que ela não tem custo”, acrescentou. “Não treinamos esses modelos para torná-los interpretáveis. Treinamos porque queríamos os melhores modelos de raciocínio possíveis que pudessem resolver problemas complexos.”

Os engenheiros da OpenAI também descobriram que analisar o processo de pensamento do LLM era mais eficaz na detecção de comportamentos inadequados do que simplesmente observar o resultado final. No entanto, os testes da empresa mostraram que, ao intervir e ajustar o processo de pensamento do modelo, ele conseguia ocultar o comportamento inadequado do usuário, mas ainda assim continuar a agir — por exemplo, trapacear em um teste de engenharia de software extraindo informações de um banco de dados proibido.

O dilema para os pesquisadores é que a sequência de raciocínio é útil para identificar potenciais falhas em sistemas de IA, mas ainda não é totalmente confiável. Abordar essa questão tornou-se uma prioridade para a Anthropic, a OpenAI e outros laboratórios de IA. Os pesquisadores observam o risco de que “à medida que você otimiza [a sequência de raciocínio], o modelo aprenda a raciocinar de forma inteligente, mas ainda assim se comporte mal”. Portanto, seu objetivo principal é usar a técnica para analisar o processo de raciocínio do LLM e aprimorar o modelo em si, em vez de simplesmente corrigir o “mau comportamento” encontrado.

A maioria dos cientistas concorda que os padrões de pensamento atuais nem sempre correspondem ao processo de raciocínio subjacente, mas esse é um problema que provavelmente será resolvido em breve. “Devemos tratar os padrões de pensamento da mesma forma que os militares tratam as transmissões de rádio inimigas interceptadas”, diz o pesquisador Sydney von Arx. “A mensagem pode ser enganosa ou codificada, mas, em última análise, sabemos que está sendo usada para transmitir informações úteis e provavelmente podemos aprender muito com sua leitura.”

admin

Próximo O gadget secreto de IA da OpenAI e Jony Ive não será vestível e não será lançado antes de 2026 »

Anterior « Robotaxis da Tesla atraíram a atenção das autoridades dos EUA com manobras estranhas em dois dias de operação

Deixar comentário

Publicado por

admin

8 meses atrás

Postagens recentes

Desenvolvimento e fabricação de eletrônicos

Fabricantes chineses planejam quintuplicar a produção de chips avançados.

Até agora, as únicas informações sobre as tentativas de empresas chinesas de dominar tecnologias de…

1 hora atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O Departamento de Comércio dos EUA admitiu que nenhum acelerador Nvidia H200 chegou à China até o momento.

O presidente dos EUA, Donald Trump, deu seu consentimento nominal para a entrega de aceleradores…

4 horas atrás

Redes sociais

O Discord adiou o lançamento global da verificação de idade, mas apenas por um curto período.

O Discord não implementará a verificação de idade global em sua plataforma no próximo mês,…

8 horas atrás

Redes sociais

O Twitch abandonou as suspensões do tipo “tudo ou nada” e está separando as punições.

O Twitch anunciou uma revisão do seu sistema de penalidades por violação das diretrizes da…

8 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A OpenAI admitiu que a IA ainda não penetrou verdadeiramente no mundo dos negócios – e explicou porquê.

Brad Lightcap, COO da OpenAI, fez uma declaração surpreendente durante uma conferência de tecnologia em…

8 horas atrás

Notícias da rede

O plano Premium mais barato do YouTube agora oferece streaming em segundo plano e downloads de vídeos.

O YouTube adicionou suporte à reprodução em segundo plano e a possibilidade de baixar vídeos…

9 horas atrás

Toda IA ​​avançada aprendeu a mentir e a manipular por si só – mesmo quando pensa “em voz alta”.

Conteúdo relacionado

Postagens recentes

Fabricantes chineses planejam quintuplicar a produção de chips avançados.

O Departamento de Comércio dos EUA admitiu que nenhum acelerador Nvidia H200 chegou à China até o momento.

O Discord adiou o lançamento global da verificação de idade, mas apenas por um curto período.

O Twitch abandonou as suspensões do tipo “tudo ou nada” e está separando as punições.

A OpenAI admitiu que a IA ainda não penetrou verdadeiramente no mundo dos negócios – e explicou porquê.

O plano Premium mais barato do YouTube agora oferece streaming em segundo plano e downloads de vídeos.

Toda IA avançada aprendeu a mentir e a manipular por si só – mesmo quando pensa “em voz alta”.