As pessoas em breve deixarão de entender como a IA funciona, alertam os principais desenvolvedores

Cerca de cinquenta especialistas renomados na área de inteligência artificial, incluindo engenheiros da OpenAI, Google DeepMind e Anthropic, publicaram os resultados de um estudo segundo o qual uma pessoa pode em breve perder a capacidade de seguir as cadeias de raciocínio de grandes modelos de linguagem.

Fonte da imagem: Igor Omilaev/unsplash.com

Modelos de IA baseados na arquitetura Transformer não podem prescindir da construção de cadeias de raciocínio ao resolver problemas complexos. Para transitar entre as camadas da rede neural, esses raciocínios devem assumir a forma de texto legível por humanos. Pesquisadores designaram essa característica como uma propriedade de raciocínio externalizada. Ao executar tarefas bastante complexas, o modelo recorre a um formato de texto como memória de trabalho. Se a IA utilizar linguagem humana para isso, o desenvolvedor mantém a capacidade de ler seus “pensamentos”.

Essas cadeias incluem raciocínio bastante explícito. Nesse caso, o modelo pode admitir hacking ou sabotagem, o que ajuda os pesquisadores a detectar tentativas de comportamento inadequado da IA. Além da forte necessidade de “pensar em voz alta” ao lidar com problemas complexos, o modelo também pode ter sua própria tendência a raciocinar abertamente, tendência que pode desaparecer quando o mecanismo de aprendizagem muda. Por exemplo, quando o aprendizado por reforço é ampliado, o modelo pode mudar de uma linguagem clara para uma linguagem própria.

Este problema não pode ser resolvido à força – a IA pode começar a fingir que se comporta decentemente, mas ocultar a verdadeira situação. Há outra opção – o raciocínio do modelo em um espaço matemático oculto, que fornece à IA melhores resultados, mas não será mais possível ler tal raciocínio. Há exemplos em que o Anthropic Claude 4 Opus tentou chantagear uma pessoa, e o OpenAI o3 sabotou comandos de desligamento.

Para abordar essas questões, os autores do estudo propõem o desenvolvimento de métodos padrão para avaliar a capacidade de monitorar a IA, publicar resultados e implementar modelos com transparência. Isso é mais importante do que a corrida pelo desempenho, apontam os pesquisadores.

admin

Postagens recentes

Ex-funcionário processa WhatsApp por ignorar questões de segurança cibernética

Um ex-executivo de alta responsabilidade em segurança cibernética do WhatsApp entrou com uma ação judicial…

52 minutos atrás

OpenAI considera sair da Califórnia para reduzir burocracia

De acordo com o The Wall Street Journal, a reestruturação planejada da OpenAI enfrenta obstáculos…

52 minutos atrás

Sonhava em construir fábrica na Alemanha para produzir os “carros mais rápidos do mundo”

Enquanto concorrentes como a Xiaomi avançam gradativamente, primeiro dominando a produção de carros elétricos na…

2 horas atrás

Xbox Cloud Gaming chega aos carros elétricos graças à LG

A Microsoft e a LG se uniram para levar o Xbox Cloud Gaming aos carros…

2 horas atrás