Esta semana, o CEO da Anthropic, Dario Amodei, publicou um artigo levantando questões sobre o quão pouco os pesquisadores entendem sobre o funcionamento interno dos modelos avançados de IA. Ele estabeleceu uma meta ambiciosa para a Anthropic de identificar de forma confiável a maioria dos problemas em modelos de IA até 2027.

Fonte da imagem: anthropic.com

Amodei reconheceu que sua empresa enfrenta uma tarefa difícil. No entanto, os desenvolvedores da Anthropic já fizeram algum progresso no rastreamento de como os modelos de IA chegam às respostas que dão às consultas dos usuários. Observa-se que mais pesquisas são necessárias para decifrar os mecanismos de operação dos algoritmos de IA à medida que seu poder aumenta.

«Estou muito preocupado em implantar tais sistemas sem melhorar a compreensão da interpretabilidade. Esses sistemas serão essenciais para a economia, a tecnologia e a segurança nacional, e terão um grau de autonomia tão alto que acredito ser inaceitável que a humanidade seja completamente ignorante sobre como eles funcionam”, disse Amodei em seu artigo.

A Anthropic é pioneira no campo da interpretabilidade mecânica, um campo que busca abrir a caixa-preta dos modelos de IA e entender por que as redes neurais tomam as decisões que tomam. Apesar da rápida melhoria no desempenho dos modelos de IA na indústria de tecnologia, as pessoas ainda têm pouco entendimento de como os modelos de IA tomam decisões. Por exemplo, a OpenAI lançou recentemente algoritmos mais poderosos, o3 e 04-mini, que são melhores em algumas tarefas, mas apresentam alucinações com mais frequência do que outros modelos de IA da empresa. Neste ponto, os desenvolvedores não sabem por que isso está acontecendo.

«Quando um sistema de IA generativa faz algo, como resumir um documento financeiro, não temos ideia, em um nível específico ou preciso, do porquê ele faz as escolhas que faz, do porquê ele escolhe certas palavras em detrimento de outras ou do porquê ele às vezes erra quando normalmente está correto”, escreve Amodei.

O chefe da Anthropic está confiante de que a criação da chamada IA ​​forte (AGI), que será comparável ou superior aos humanos em capacidades, pode ser muito perigosa sem uma compreensão clara de como os modelos de IA funcionam. Amodei disse anteriormente que a humanidade seria capaz de atingir tal entendimento por volta de 2026-2027, mas agora ele disse que uma compreensão completa dos modelos de IA ainda está muito distante.

A longo prazo, a Anthropic gostaria de realizar “exames cerebrais” ou “ressonâncias magnéticas” nos modelos de IA mais avançados. De acordo com Amodei, essas pesquisas ajudarão a identificar uma ampla gama de problemas em modelos de IA, incluindo sua tendência a mentir, seu desejo de poder, etc. Isso pode levar de cinco a 10 anos, mas esses exemplos são necessários para testar e lançar futuros modelos de IA.

O anúncio disse que a Anthropic fez algum progresso em pesquisas que melhoraram sua compreensão de como os modelos de IA funcionam. Por exemplo, a empresa descobriu recentemente uma maneira de rastrear os caminhos de pensamento de um modelo de IA usando os chamados esquemas. Como resultado, a Anthropic identificou uma cadeia que ajuda a IA a entender quais cidades americanas estão em quais estados. A empresa identificou apenas alguns desses padrões, mas os desenvolvedores acreditam que haja milhões deles em modelos de IA.

A própria Anthropic investe em pesquisa de interpretabilidade e recentemente investiu em uma startup que trabalha nessa área. Embora a pesquisa sobre interpretabilidade hoje esteja mais focada em segurança, Amodei acredita que explicar como os modelos de IA chegam às suas respostas pode ser uma vantagem comercial.

O chefe da Anthropic pediu que a OpenAI e a Google DeepMind intensifiquem suas pesquisas nessa área. Amodei pede que os governos incentivem pesquisas sobre interpretabilidade. Ele também acredita que os EUA deveriam introduzir controles sobre as exportações de chips para a China para limitar a probabilidade de a corrida global da IA ​​sair do controle.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *