Os modelos modernos de IA demonstram habilidades impressionantes no processamento de linguagem natural e na geração de texto. No entanto, de acordo com Yann LeCun, especialista chefe em IA da Meta✴, eles ainda não possuem as capacidades de memória, pensamento, planejamento e raciocínio, como é típico dos humanos. Eles estão apenas imitando essas habilidades. Segundo o cientista, a superação dessa barreira exigirá pelo menos 10 anos e o desenvolvimento de uma nova abordagem – “modelos de mundo”.
No início deste ano, a OpenAI introduziu um novo recurso para o chatbot ChatGPT AI chamado “memória”, que permite à IA “lembrar” de interações anteriores com um usuário. Além disso, a empresa lançou uma nova geração de modelos de IA, GPT-4o, que exibe a palavra “pensar” na geração de respostas. Ao mesmo tempo, a OpenAI afirma que os seus novos produtos são capazes de raciocínios complexos. No entanto, de acordo com LeCun, eles apenas criam a ilusão de processos cognitivos complexos – estes sistemas de IA ainda carecem de uma compreensão real do mundo.
Embora tais inovações possam parecer um passo significativo para a criação da inteligência artificial geral (AGI), LeCun opõe-se aos optimistas neste campo. Num discurso recente no Hudson Forum, ele observou que o otimismo excessivo de Elon Musk e Shane Legg, cofundador do Google DeepMind, pode ser prematuro. De acordo com LeCun, a criação de IA de nível humano pode levar décadas, não anos, apesar das previsões optimistas sobre o seu aparecimento iminente.
LeCun enfatiza que para criar uma IA que possa compreender o mundo ao seu redor, as máquinas devem não apenas lembrar informações, mas também ter intuição, bom senso, capacidade de planejar e raciocinar. “Os sistemas de IA de hoje, apesar das afirmações dos entusiastas mais apaixonados, não são capazes de realizar nenhuma dessas ações”, observou LeCun.
A razão para isso é simples: grandes modelos de linguagem (LLMs) funcionam prevendo o próximo token (geralmente algumas letras ou uma palavra curta), e modelos modernos de IA para imagens e vídeos prevêem o próximo pixel. Em outras palavras, os LLMs são preditores unidimensionais, enquanto os modelos para imagens e vídeos são preditores bidimensionais. Esses modelos alcançaram grande sucesso em fazer previsões em suas dimensões, mas não compreendem verdadeiramente o mundo tridimensional acessível aos humanos.
Por causa disso, a IA moderna não consegue realizar tarefas simples que a maioria das pessoas consegue realizar. LeCun compara as capacidades da IA com a forma como as pessoas aprendem: aos 10 anos, uma criança pode limpar a sujeira e, aos 17, pode aprender a dirigir um carro. Ambas as habilidades são aprendidas em questão de horas ou dias. Ao mesmo tempo, mesmo os sistemas de IA mais avançados, treinados em milhares ou milhões de horas de dados, ainda não são capazes de executar de forma confiável ações tão simples no mundo físico. Para resolver este problema, LeCun propõe o desenvolvimento de modelos mundiais – modelos mentais de como o mundo se comporta que podem perceber o mundo que nos rodeia e prever mudanças no espaço tridimensional.
Tais modelos, diz ele, representam um novo tipo de arquitetura de IA. Você pode imaginar uma sequência de ações, e seu modelo do mundo irá prever o impacto que essa sequência terá no mundo. Parte da vantagem desta abordagem é que os modelos mundiais podem lidar com significativamente mais dados do que os LLMs. Isto, claro, torna-os computacionalmente intensivos, razão pela qual os fornecedores de nuvens estão a apressar-se a colaborar com empresas de IA.
Os modelos mundiais são um grande conceito que vários laboratórios de investigação estão actualmente a perseguir, e o termo está rapidamente a tornar-se a nova palavra da moda para atrair capital de risco. Um grupo de pesquisadores de IA consagrados, incluindo Fei-Fei Li e Justin Johnson, arrecadou recentemente US$ 230 milhões para sua startup World Labs. A IA Madrinha e sua equipe também estão confiantes de que os modelos do mundo levarão a sistemas de IA significativamente mais inteligentes. A OpenAI também chama seu gerador de vídeo Sora, ainda a ser lançado, de modelo mundial, mas não divulga detalhes.
LeCun introduziu a ideia de usar modelos mundiais para criar IA de nível humano em seu artigo de 2022 sobre IA orientada a objetos ou orientada a objetivos, embora observe que o conceito em si remonta a mais de 60 anos. Resumidamente, o modelo mundial está carregado de representações básicas do ambiente (por exemplo, um vídeo de uma sala desarrumada) e da memória. Com base nesses dados, o modelo prevê qual será o estado do mundo que nos rodeia. Ela então recebe metas específicas, incluindo o estado desejado (por exemplo, uma sala limpa), e limites são definidos para garantir que não haja nenhum dano potencial à pessoa ao atingir a meta (por exemplo, “ao limpar uma sala, não prejudique o pessoa”). Depois disso, o modelo mundial encontra a sequência ideal de ações para completar as tarefas atribuídas.
Os modelos mundiais são um conceito promissor, mas, segundo LeCun, ainda não foram feitos progressos significativos na sua implementação. Existem muitos problemas extremamente difíceis que precisam ser resolvidos para avançarmos do estado atual da IA e, em sua opinião, tudo é muito mais complicado do que parece à primeira vista.