Cerca de cinquenta especialistas renomados na área de inteligência artificial, incluindo engenheiros da OpenAI, Google DeepMind e Anthropic, publicaram os resultados de um estudo segundo o qual uma pessoa pode em breve perder a capacidade de seguir as cadeias de raciocínio de grandes modelos de linguagem.
Fonte da imagem: Igor Omilaev/unsplash.com
Modelos de IA baseados na arquitetura Transformer não podem prescindir da construção de cadeias de raciocínio ao resolver problemas complexos. Para transitar entre as camadas da rede neural, esses raciocínios devem assumir a forma de texto legível por humanos. Pesquisadores designaram essa característica como uma propriedade de raciocínio externalizada. Ao executar tarefas bastante complexas, o modelo recorre a um formato de texto como memória de trabalho. Se a IA utilizar linguagem humana para isso, o desenvolvedor mantém a capacidade de ler seus “pensamentos”.
Essas cadeias incluem raciocínio bastante explícito. Nesse caso, o modelo pode admitir hacking ou sabotagem, o que ajuda os pesquisadores a detectar tentativas de comportamento inadequado da IA. Além da forte necessidade de “pensar em voz alta” ao lidar com problemas complexos, o modelo também pode ter sua própria tendência a raciocinar abertamente, tendência que pode desaparecer quando o mecanismo de aprendizagem muda. Por exemplo, quando o aprendizado por reforço é ampliado, o modelo pode mudar de uma linguagem clara para uma linguagem própria.
Este problema não pode ser resolvido à força – a IA pode começar a fingir que se comporta decentemente, mas ocultar a verdadeira situação. Há outra opção – o raciocínio do modelo em um espaço matemático oculto, que fornece à IA melhores resultados, mas não será mais possível ler tal raciocínio. Há exemplos em que o Anthropic Claude 4 Opus tentou chantagear uma pessoa, e o OpenAI o3 sabotou comandos de desligamento.
Para abordar essas questões, os autores do estudo propõem o desenvolvimento de métodos padrão para avaliar a capacidade de monitorar a IA, publicar resultados e implementar modelos com transparência. Isso é mais importante do que a corrida pelo desempenho, apontam os pesquisadores.
\nO Apple iPhone Air no período de lançamento comparável revelou-se aproximadamente duas vezes mais popular…
A Pearl Abyss mudou sua posição em relação ao suporte para placas de vídeo Intel…
A ASRock Industrial anunciou a workstation compacta AI Box-A395, projetada para trabalhar com grandes modelos…
A ASUS anunciou o ExpertCenter PN55, um desktop de formato compacto projetado para uso empresarial.…
A Intel comparou o desempenho em jogos dos processadores Core Ultra 5 250K Plus e…
É difícil contestar o fato de que, entre os fabricantes de hardware, a Nvidia é…