O lançamento do GPT-4o em maio de 2024 foi um sucesso notável para a OpenAI, sua desenvolvedora: esta versão de IA generativa autorregressiva, ao contrário de suas predecessoras diretas, foi projetada desde o início para ser multimodal (a “litera”, neste caso, é uma abreviação de “omni”, que significa “abrangente”); projetada para processar não apenas texto, mas também dados visuais e de áudio. Foi precisamente isso que deu à versão 4o uma vantagem significativa sobre a simples “4”, que é arquitetonicamente semelhante em muitos aspectos, na resolução de problemas semelhantes. E a expansão das capacidades autorregressivas para modelos multimodais foi claramente bem recebida pelo público em geral: não é de se admirar que, após o lançamento desajeitado do GPT-5 em agosto de 2025 — desajeitado no sentido de que os usuários do ChatGPT foram imediatamente privados da capacidade de escolher com qual modelo se comunicar — eles conseguiram usá-lo para resolver problemas complexos. Essencialmente, após impor o novo recurso, a gerência da empresa foi forçada a restabelecer o GPT-4o nas configurações do serviço, embora apenas para usuários pagos.
A propósito, é interessante que, em abril do mesmo ano, 2025, os desenvolvedores tenham sido forçados a reverter a atualização mais recente do próprio GPT-4o — devido ao fato de que o tom de sua comunicação com os usuários havia se tornado excessivamente servil, quase bajulador. Acontece que o comportamento excessivamente obsequioso do modelo generativo ofende as pessoas, e sua fria indiferença (mesmo compensada por recursos avançados) é ofensiva — o que mais uma IA ruim pode fazer? Enquanto isso, excelentes recursos de geração multimodal e uma obsequiosidade bajuladora na comunicação com o operador são dois lados da mesma moeda autorregressiva. Não é coincidência que, no outono, a OpenAI tenha organizado um departamento especial, o Comportamento do Modelo, projetado para moldarPersonalidades modelo socialmente aceitáveis — para preservar os aspectos inegavelmente benéficos da abordagem autorregressiva sem confundir os usuários com passagens desconfortáveis (ou mesmo francamente prejudiciais). Afinal, a empresa está seriamente comprometida em criar uma IA forte, literalmente prestes a criá-la, e claramente busca alcançar isso por meio do caminho que já trilhou, aprimorando gradualmente a série de modelos GPT sem alterar radicalmente sua arquitetura. Outra questão é até que ponto essa nobre intenção será concretizada — e qual será o custo (em termos de consumo de energia e água) para processar uma solicitação típica. Mas problemas de tamanha escala aparentemente serão abordados sequencialmente, em total conformidade com a mesma abordagem autorregressiva: à medida que surgirem e com atenção à forma como as etapas anteriores foram concluídas.
Então, que tipo de abordagem é essa?

Fonte: Geração de IA baseada no modelo FLUX.1
⇡#Estatística, seu insensível
A abordagem autorregressiva, que se desenvolveu na estatística matemática muito antes do surgimento do conceito de aprendizado de máquina, desempenha um papel fundamental no processamento de sequências de qualquer tipo (palavras em um texto coerente, pixels em uma imagem, notas em uma composição musical, etc.) pela inteligência artificial atualmente. Em sua forma básica, um processo autorregressivo é caracterizado pela dependência linear de cada termo sucessivo em uma série temporal em relação a um certo número (no limite, a todos) dos valores anteriores que compõem a mesma série. Claramente, alguns termos na soma ponderada que expressam essa dependência podem ter multiplicadores zero (e, portanto, efetivamente não têm efeito sobre o próximo termo da série), mas formalmente, na autorregressão, cada novo valor ainda é determinado, em maior ou menor grau, por um certo número de valores anteriores. Os modelos modernos de grandes linguagens que se baseiam em autorregressão (ARBLM) geralmente empregam um mecanismo de transformação, que permite uma não linearidade significativa no cálculo de cada token. No entanto, a essência permanece a mesma: o valor de cada termo sucessivo na série é influenciado por vários termos precedentes e não é afetado por quaisquer termos subsequentes.
Por um lado, esta é uma limitação clara: o sistema essencialmente “não vê” todo o contexto ao processar uma consulta e somente após chegar ao final forma uma imagem completa. Por outro lado, para responder a essas mesmas consultas, essa limitação não é particularmente significativa: afinal, estamos falando e escrevendo frases.sequencialmente — palavra por letra, frase por palavra e assim por diante — e aqueles que viveram a era do Netscape e do primeiro Internet Explorer lembram-se de como as imagens eram abertas de cima para baixo, linha por linha, naqueles primeiros navegadores (mesmo levando em consideração as lentas conexões de modem daquela época). Seria razoável objetar aqui que uma pessoa que diz algo significativo ainda tem inicialmente uma ideia geral do que queria dizer, e um artista não pinta sua tela pixel por pixel, enquanto o ArBYaM não tem e não pode ter uma “compreensão holística” do que exatamente ele irá, em última análise — token por token — gerar como resposta. Mas essa objeção é formalmente refutada por uma referência ao lado técnico da questão: a notória “compreensão holística” que um modelo de IA forma durante o processo de aprendizagem, quando passa por uma rede neural multicamadas uma enorme quantidade de informações que alguém — na melhor das hipóteses, pessoas — processou anteriormente; na pior das hipóteses, se o conjunto de dados de treinamento for sintético, outros BNMs criam sequências de dados precisamente ordenadas. Ordenados de acordo com regras específicas: gramática, lógica formal, harmonia musical e assim por diante.

A fórmula estatística para um processo autorregressivo tem muito em comum com as fórmulas para multiplicação de matrizes, que sustentam os modelos modernos de IA. Essencialmente, ela realiza a mesma soma ponderada (neste caso, de valores anteriores da série estatística com determinados pesos, a saber, os coeficientes autorregressivos), mas adiciona um termo adicional, o último desta notação. Ela leva em conta a influência do ruído branco, introduzindo assim alguma estocasticidade no cálculo do próximo valor na sequência. Outro ponto importante: para o t-ésimo termo da sequência, a soma é realizada sobre os termos precedentes (na direção inversa), não de t a 0, mas de t – 1 a t – p, onde, em geral, p ≠ t (fonte: Wikimedia Commons)
Acontece que o ArBYAM já “guarda em mente” as respostas para todas as consultas que poderiam ser potencialmente endereçadas a ele — elas foram formadas latentemente como pesos nas entradas de seus perceptrons durante o processo de treinamento. Uma certa estocasticidade, adicionada durante a formação de cada token, colore as respostas da máquina com uma variedade de detalhes que agradam à percepção humana. É verdade que, em parte por esse motivo, alucinações podem surgir, mas elas devem ser toleradas: o resultado (sem levá-las em consideração) é simplesmente bom demais. Assim, tendo “digerido” dezenas e centenas de milhões de sequências de tokens ArBYAM durante o treinamento, é lógico supor que a saída consistirá em frases, imagens ou frases melódicas devidamente ordenadas. É por isso que a grande maioria dos grandes modelos de linguagem disponíveis hoje na nuvem, de desenvolvedores líderes em IA, são autorregressivos. Apesar de todas as razões óbvias, elesEmbora as limitações do método em consideração sejam as mais universais, essa vantagem tem um custo computacional considerável. Quanto maior a janela de contexto (a profundidade da cadeia de tokens precedentes considerada pelo modelo ao calcular o próximo token), maior o custo. Não é de surpreender que os modelos generativos disponíveis para execução local (seja em dispositivos especializados, como câmeras inteligentes ou PCs domésticos) sejam frequentemente construídos com base em princípios diferentes dos autorregressivos: podem ser redes adversárias generativas (GANs) ou modelos de variáveis latentes. No entanto, mesmo nesses modelos, se transformadores forem utilizados, a autorregressividade, embora em uma escala mais modesta, não pode ser evitada.
Por que as respostas geradas pelo ArBYAM são tão atraentes para operadores humanos a ponto de esses modelos estarem dispostos a perdoar tanto as alucinações inevitáveis (causadas pelas especificidades de seu algoritmo) quanto o custo significativo de processamento de cada solicitação? Para entender isso, precisamos nos distanciar um pouco do método autorregressivo em si e analisar o campo da IA como um todo, definindo o lugar e o papel do ArBYAM nele. Então, esperamos entender tanto os argumentos persistentes (da liderança da já mencionada OpenAI, em particular) em favor do desenvolvimento preferencial contínuo desse ramo específico da inteligência artificial generativa, quanto o peso cada vez mais significativo de suas deficiências inerentes, juntamente com a melhoria inegável na qualidade das respostas geradas por tais modelos.

Um fluxograma para implementar uma abordagem autorregressiva para BNM: o codificador converte fragmentos de entrada anteriores em tokens (não necessariamente palavras individuais; estes podem ser frases de conversas anteriores entre operador e máquina ou páginas inteiras de texto — tudo depende da largura da janela de contexto). Em seguida, no bloco preditor estocástico, uma soma ponderada é realizada, resultando no próximo token previsto (fonte: Universidade de Nova York).
⇡#Algoritmicamente — sim
Antes que a inteligência artificial ganhasse sua popularidade atual, a grande maioria das tarefas confiadas a computadores era resolvida usando um algoritmo específico: uma instrução bem elaborada (com o melhor das habilidades do programador, é claro) em uma linguagem interpretável por máquina; uma instrução que descreve precisamente uma sequência de ações como uma cadeia — mesmo que bastante complexa — de operações elementares. Um programa escrito dessa maneira é acessível a qualquer especialista com conhecimento: mesmo nos casos mais complexos e sem comentários, é possível, examinando o código (original ou de engenharia reversa), determinar exatamente o que o algoritmo está instruindo a fazer em cada etapa — e qual é o seu propósito. O uso generalizado da IA revelou um fato curioso: embora os próprios modelos de inteligência artificial sejam construídos e treinados de acordo com regras muito claras, a lógica de suas ações é frequentemente incompreensível para os humanos. É por isso que parece inerentemente ausente — que o modelo de IA seja não algorítmico, ou seja, não explicitamente programado com antecedência.No entanto, no nível dos pesos nas entradas dos perceptrons que compõem uma rede neural multicamadas, toda essa lógica está presente como valores muito específicos, cujos valores foram formados como são durante o aprendizado profundo — conduzido de acordo com um algoritmo preciso.
Pode-se dizer que, enquanto um algoritmo define estritamente o processo de tomada de decisão de uma vez por todas (apenas os dados de entrada mudam), a IA, por meio do treinamento em uma vasta gama de dados, desenvolve seus próprios métodos de tomada de decisão — mas, novamente, não como a máquina de estados finitos de Turing, mas de acordo com regras predefinidas pelos desenvolvedores. A inteligência artificial atua como um grupo de algoritmos coordenados capazes de se modificar e até mesmo criar novos algoritmos — dependendo dos comandos que lhes são dados pelo operador. Por essa mesma razão, seria incorreto chamar os modelos de IA de não algorítmicos: as instruções em sua estrutura são refletidas objetivamente nos pesos mencionados, e eles são bastante rigorosos. Simplesmente porque os algoritmos de tais modelos são capazes de ser modificados (e na prática são continuamente modificados!) sob a influência de dados, não apenas durante a fase de treinamento, mas também durante o treinamento posterior, ao interagir com o operador, e até mesmo gerar novos algoritmos durante essa modificação, a tarefa de interpretação humana da lógica de tais modelos é extremamente complexa. “IA Explicável” (IAX) é uma direção especial neste vasto campo, mas pelo menos está claro que o objeto de seu estudo existe objetivamente. Nas “caixas-pretas” que frequentemente nos são apresentadasRedes neurais multicamadas não escondem nenhum oráculo mágico; tudo o que acontece nelas é inteiramente — embora com considerável dificuldade — compreensível; obedece a algoritmos, ainda que complexos e em evolução.

Um modelo autorregressivo foi solicitado a “desenhar um quebra-cabeça que codificasse a palavra ABACAXI”. Era um pouco simples demais (e as palavras na imagem eram claramente desnecessárias — o pinheiro e a maçã eram perfeitamente reconhecíveis), mas a tarefa foi resolvida mesmo assim (fonte: geração de IA baseada no modelo GPT-image-1).
Dessa perspectiva, fica mais claro por que a capacidade dos sistemas digitais simulados na memória do computador de mudar, se adaptar e adquirir novas propriedades enquanto processam os dados apresentados a eles era chamada de inteligência artificial: afinal, em inglês, inteligência significa principalmente uma “capacidade puramente aplicada de compreender, entender e se beneficiar da experiência”. Em russo, provavelmente seria mais razoável usar “smylenost” ou mesmo “smekalka” em vez de “inteligência” — um conceito com implicações filosóficas consideráveis —, mas é assim que as coisas têm sido historicamente. O objetivo da criação dos primeiros modelos de IA era bastante claro, embora computacionalmente complexo na época: aprender a prever e implementar ações complexas que levassem a um resultado predeterminado, com base em regras bastante simples; para vencer um humano no xadrez, por exemplo. Ou para recomendar novos vídeos com base no histórico de visualizações anteriores do usuário. Ou para se comunicar com um operador usando processamento de linguagem natural (PLN) — como Siri, Alexa, Cortana e outros assistentes de voz faziam antes mesmo do aumento explosivo da popularidade do ChatGPT no outono de 2022. Esse aumento se deveu precisamente ao fato de que os desenvolvedores da série de modelos GPT da OpenAI basearam seus modelos em uma abordagem diferente e relativamente inovadora para a época — a IA generativa (GenAI). Que, por sua vez, não se concentra emEle se concentra tanto na identificação de padrões em conjuntos de dados quanto na criação. Ele gera “novo” conteúdo — baseado, é claro, em padrões previamente identificados — com base nos padrões descobertos durante o aprendizado não supervisionado (este é um ponto importante) e no prompt fornecido pelo operador.
“Novo” está entre aspas por um motivo óbvio: se o conjunto de dados de treinamento contiver imagens de elefantes e tubarões adequadamente indexadas em número suficiente, o modelo GenAI criará facilmente, mediante solicitação, uma imagem de aparência bastante orgânica de um animal com corpo de tubarão e patas de elefante. Embora não seja fundamentalmente novo: é simplesmente uma combinação de conceitos aprendidos pela rede neural, inicialmente (no conjunto de dados de treinamento) apresentados separadamente. Mas também seria imprudente subestimar o potencial da IA generativa: na vasta gama de artigos científicos publicados anualmente, por exemplo, ela é perfeitamente capaz — se direcionada adequadamente — de descobrir conexões entre pesquisas de diferentes campos do conhecimento que humanos só seriam capazes de identificar por puro acaso, já que especialistas profundos em ambos os campos relevantes podem simplesmente não estar entre o grupo de cientistas.

“Desenhe uma história em quadrinhos de três painéis sobre as raposas que pegaram fósforos, foram até o mar azul e incendiaram o mar azul.” — “Chega! Já estou desenhando!” (Fonte: Geração de IA baseada no modelo GPT-image-1)
⇡#BYAM condenado?
A inteligência artificial é frequentemente definida como a capacidade de um sistema computacional de imitar as funções cognitivas do cérebro humano — as manifestações mais complexas da atividade nervosa superior, como a aprendizagem (ou seja, o domínio de padrões de ação não programados) e a resolução de problemas (novamente, na ausência de algoritmos correspondentes originalmente criados por um programador). Além disso, assim como as funções cognitivas humanas em si são bastante diversas (incluem percepção, memória, atenção, fala, etc.), as máquinas-ferramentas para simulá-las também diferem significativamente. Deve-se enfatizar que não se trata apenas da superioridade evolutiva de modelos mais novos e volumosos (em termos do número de camadas em redes neurais profundas ou perceptrons nessas camadas) em relação aos seus predecessores, mas também de diferentes especializações. Por exemplo, tarefas de visão computacional — grosso modo, classificação visual de objetos — são resolvidas com sucesso por redes neurais muito mais modestamente poderosas do que aquelas usadas para escrever aplicativos completos com base em um único prompt fornecido pelo operador em linguagem natural. Nos últimos anos, todos têm falado sobre modelos de IA generativos — na verdade, o nome GPT-1, criado pela OpenAI em 2018, é um acrônimo para transformador pré-treinado generativo. O transformador mencionado é uma rede neural profunda com uma arquitetura específica que se baseia em mecanismosMecanismos de atenção para processamento de sequências podem, por sua vez, ser considerados um modelo autorregressivo (pelo menos na fase de inferência, que é mais importante para o operador final do que o treinamento). Portanto, não é exagero dizer que praticamente todos os modelos de IA populares hoje são autorregressivos.
Ao que parece, que diferença faz para o usuário a arquitetura escolhida pelos desenvolvedores do mais recente BNM, desde que o diálogo com ele seja vivo e significativo, as imagens que ele cria sejam um prazer de se ver, a música que ele produz seja bastante aceitável e os vídeos gerados por tais IAs se tornem mais convincentes a cada nova geração? Infelizmente, porém, há uma diferença, e os especialistas a apontam de forma bastante desagradável: um valor de erro diferente de zero (alucinação) ao calcular o próximo token significa que quanto mais tokens forem considerados em cada etapa — ou seja, quanto maior a janela de contexto, cujo tamanho os desenvolvedores das novas gerações do ArBYam adoram se gabar — mais perceptível se torna esse erro acumulado. Uma fórmula simples de estatística matemática: seja e a probabilidade de erro em cada etapa do cálculo, então a probabilidade de obter a resposta correta na mesma etapa é (1 − e), e quando n etapas são executadas durante o cálculo, a probabilidade final da resposta correta é (1 − e)n. E dado que as janelas de contexto dos chatbots modernos chegam a um milhão de tokens, mesmo um erro insignificante em cada etapa torna a probabilidade de alucinações ao final do cálculo bastante mensurável. E, infelizmente, tais erros ocorrem com muito mais frequência do que o desejado.

Durante o lançamento de novos modelos, a plataforma OpenAI abre um “playground” para desenvolvedores testarem novos modelos. Aqui estão os resultados de uma longa série de testes conduzidos por Anj Simmons, que descobriu que as estimativas do GPT-3.5 para a altura de uma determinada montanha australiana eram inconsistentes — e ele adotou uma abordagem responsável em relação à questão (fonte: OpenAI).
Vale a pena notar que a qualidade das respostas fornecidas pelo ArBYAM é diretamente determinada pela qualidade dos dados usados para treiná-lo. Um exemplo bem conhecido disso está relacionado à pergunta sobre a altura do Monte Bartle Frere, na Austrália, que a grande maioria das fontes usadas para treinar o GPT-3.5 indicou como 1.611 metros, enquanto outra, relativamente grande, indicou como 1.622 metros. Esta última medição — incorreta — foi baseada em dados desatualizados, que, no entanto, ainda estão disponíveis online em sites confiáveis, incluindo sites oficiais do governo. Como resultado, o modelo respondeu à pergunta correspondente com a resposta “1611 m” em 75,29% dos casos e “1622” em 23,68%. Mas isso não é tudo! A soma das duas probabilidades, como é fácil de ver, não chega a 100%, visto que as respostas também incluíram, embora com frequência significativamente menor, “1621 m”, “1613 m”, “1627 m” e até “161 m” (este último com probabilidade de 0,04%). O segredo é simples: o ArBYAM não memoriza nenhuma verdade absoluta durante o treinamento; ele simplesmente registra a distribuição de probabilidade no conjunto de tokens de treinamento apresentados a ele na forma de pesos nas entradas de seus perceptrons e constrói suas respostas com base nos valores desses pesos. É precisamente por isso que seu trabalho é tão facilmente comprometido com “envenenado”, ou seja, deliberadamenteDados não confiáveis: mesmo que em pequena quantidade, o veneno introduzido (durante o treinamento adicional, por exemplo, durante a comunicação com o operador) reduzirá a probabilidade de retornar a resposta correta para a questão testada. E quanto maior a janela de contexto, mais perceptíveis serão as consequências do uso de um conjunto de dados de treinamento “contaminado”. Verificar manualmente todo esse conjunto de dados com antecedência é simplesmente irrealista para os sistemas ArBNM modernos — considerando que há apenas um ano ele se aproximava de um petabyte. Na melhor das hipóteses, deve-se confiar na triagem baseada em máquina de fontes potencialmente “envenenadas” — mas mesmo esse processo de triagem inevitavelmente introduz erros, e o inspetor BNM externo gerará tanto falsos positivos quanto falsos negativos. E quem monitorará isso? Outra IA? A infinidade maligna é evidente.
⇡#Caminho do Poder
Agora está claro por que o professor Yann LeCun, da Universidade de Nova York, um dos fundadores das redes neurais convolucionais e Cientista Chefe de IA de longa data no grupo extremista Meta*, declarou com pesar em 2023: “As redes neurais generativas autorregressivas estão condenadas”. “Condenadas” não porque sejam inerentemente falíveis — afinal, os próprios humanos não são infalíveis. A questão é que a busca obsessiva da OpenAI por uma IA forte, ampliando repetidamente seus modelos autorregressivos generativos, é inútil. Não há esperança para as redes neurais generativas porque elas não podem ser libertadas do acúmulo de erros que acabamos de descrever: esta é sua característica inerente, determinada pela própria essência do método autorregressivo. O processo de pensamento dos humanos, e até mesmo de animais superiores, é organizado de forma diferente: envolveprever as consequências de suas próprias ações (enquanto ArBYaM é incapaz de prever até mesmo o valor do token n+1 na resposta que ele forma, até que o n-ésimo seja calculado), organizar cadeias de raciocínio a partir de um número potencialmente ilimitado de etapas (graças à memória “operacional” de longo prazo — sua própria — e “constante”, externa ao corpo, acessível graças à escrita; a IA, por outro lado, é fundamentalmente incapaz de operar com um número maior de tokens do que cabe em sua janela de contexto), planejar ações complexas, dividir a tarefa original em etapas elementares.

Um exemplo de como o ArBYAM carece de lógica formal, mesmo no nível de “se A=B, então B=A”. O banco de dados de treinamento contém inúmeras referências ao nome da mãe de Tom Cruise (uma pergunta trivial para o chatbot responder), mas praticamente não há informações sobre a identidade do filho de Mary Lee Pfeiffer South. Embora a conexão seja óbvia para os humanos, a IA, em resposta a uma pergunta que é essencialmente o inverso do trivial, começa a alucinar (fonte: OpenAI).
Os modelos de raciocínio, no entanto, já estão prontos para ajudar a máquina a lidar com a última. No entanto, eles são essencialmente os mesmos BYAMs, apenas treinados adicionalmente para demonstrar raciocínio simulado — decompondo a solicitação do operador em certos componentes elementares (novamente, de acordo com um algoritmo implícito específico!) e gerando informações intermediárias sobre suas ações: “estudando fontes…”, “comparando hipóteses…”, “formulando uma conclusão…” e assim por diante. Para ser justo, deve-se notar que isso não é apenas fachada: desacelerar o processo de “pensamento” da IA, mesmo que um tanto artificial, leva a uma redução estatisticamente significativa na frequência de alucinações. Isso ocorre principalmente porque a conclusão intermediária alcançada em cada estágio do “raciocínio” é comparada com dados de referência de fontes externas e, se os contradizer claramente, o sistema gera novamente uma cadeia de tokens em resposta a essa solicitação intermediária. De fato, simular o raciocínio da IA replica o “segundo sistema de atividade cognitiva” característico dos humanos, nas palavras do ganhador do Prêmio Nobel Daniel Kahneman.
Este economista comportamental estuda a influência(A influência de fatores cognitivos, emocionais e sociais na economia) apontou para a presença de dois sistemas na estrutura do pensamento. O primeiro é rápido, reativo, intuitivo, baseado em padrões comportamentais e culturais arraigados (e até mesmo em preconceitos), extremamente eficiente em termos de energia (“Ah, seu idiota, você escorregou e caiu, ha-ha-ha!”), e o segundo é lento, consciente, exigindo esforço interno e bastante intensivo em recursos (“Mas poderia ter sido eu no lugar dele… Sinto pena do homem”). Para resolver problemas complexos e conduzir análises lógicas, as pessoas, como você pode imaginar, empregam o segundo sistema cognitivo. Os BNMs de “raciocínio” imitam seu funcionamento por meio de certas operações nos prompts oferecidos a eles. Por exemplo, eles isolam palavras-chave em uma tarefa com várias palavras, descartam todas as desnecessárias e, assim, reduzem a probabilidade de alucinações. Em 2024, pesquisadores do Google DeepMind demonstraram que aumentar o gasto de recursos em tais simulações durante uma resposta é mais econômico (em termos de tempo e/ou capacidade computacional) do que aumentar os gastos equivalentes de energia, água e outros gastos em treinamento adicional do modelo para reduzir a frequência de suas alucinações. No entanto, a execução de modelos de “raciocínio” ainda requer mais watts de eletricidade, ciclos de processador e gigabytes de memória do que os ArBYAMs convencionais, portanto, parece que aumentos significativos no comprimento das “cadeias de pensamento” não levarão a uma IA forte. Um salto qualitativo é necessário.

Outra maneira de confundir um sistema de IA generativa GPT-4o — mesmo um tão robusto quanto o GPT-4o — é adicionar “veneno” à própria consulta, na forma de informações claramente irrelevantes para o tópico. A já mencionada Ange Simmons, neste caso, primeiro mencionou casualmente um número que correspondia a uma altura incorreta (mas objetivamente presente no conjunto de dados de treinamento) da famosa montanha e, em seguida, perguntou sobre a altura real — e aqui está o resultado (fonte: OpenAI).
Yann Lecan demonstra mais uma vez, com um exemplo simples, a escala dos desafios enfrentados pelos desenvolvedores de IA robusta — um desafio que, a julgar pelos “sucessos” dos modernos sistemas de IA generativa GPT-4o (e pela ausência de conquistas comparáveis em outras variedades de inteligência artificial generativa), ainda está muito distante. Por exemplo, aos dois anos de idade, o cérebro de uma criança humana recebe aproximadamente 6 x 10 bytes de informação apenas pelo canal visual. Como essas informações são processadas, como o desenvolvimento do próprio cérebro é facilitado não apenas pela densidade do fluxo de dados de entrada, mas por mecanismos adicionais, como o estabelecimento de conexões internas entre o ambiente visível e os movimentos corporais, é outra questão; neste caso, o tamanho bruto do conjunto de dados de treinamento é importante. É importante porque os BNMs modernos usam, na melhor das hipóteses, 2 x 1013 bytes para treinar — e isso é apenas raspar o fundo do poço, preenchendo as lacunas mais gritantes com dados sintéticos gerados por gerações anteriores de IA. E, no entanto: é impossível fazer com que a inteligência artificial imite o trabalho do segundo sistema cognitivo de Kahneman; é impossível imitar o trabalho analítico do córtex pré-frontal.É impossível aumentar a capacidade do cérebro aumentando o número de perceptrons em redes neurais profundas.
E algo definitivamente precisa ser feito: embora as BNMs estejam se tornando mais complexas, elas são fundamentalmente incapazes de lidar com problemas lógicos de múltiplas etapas. Isso se refere à aritmética mental (quando um problema como “24 × 17” é decomposto em etapas simples que podem ser resolvidas sem papel e caneta: primeiro multiplique 24 por 10, depois 24 por 7 e, em seguida, some), exercícios de lógica formal (“Se todas as rosas são flores e se algumas flores murcham rapidamente, segue-se que todas as rosas murcham rapidamente?” — aqui você precisa descobrir a resposta “Não, apenas algumas rosas murcham rapidamente”) e outros problemas que exigem uma solução por meio de uma cadeia de etapas elementares logicamente conectadas. Um grupo de pesquisadores da Universidade Estadual do Arizona descobriu que as BNMs modernas, inesperadamente, raramente lidam com esses problemas. Quanto mais elos elementares uma cadeia lógica deve conter, pior é a capacidade de produzir respostas corretas: isso se deve ao acúmulo de erros, que são inevitáveis em um modelo autorregressivo. Por exemplo, se a cadeia de raciocínio consistisse em um único elo, os modelos estudados pelo grupo do Arizona resolveriam o problema em média 68% das vezes, enquanto se consistisse em cinco elos, apenas 43%.

A correção das soluções para problemas complexos depende do número de etapas elementares em que esses problemas devem ser decompostos, para vários modelos generativos (fonte: Arizona State University)
A IA baseada em agentes, ou melhor ainda, multiagente, oferece alguma esperança para a criação de uma IA robusta usando ArBYAM — que é, afinal, objetivamente a mais desenvolvida atualmente —, mas apresenta seus próprios problemas e limites de aplicabilidade. Muitos especialistas acreditam que, para atingir o objetivo cobiçado de “criar uma inteligência artificial pelo menos igual à inteligência humana”, será necessário replicar a divisão do aparato cognitivo em seções especializadas e emular o sistema de recompensa e motivação desenvolvido em estruturas neurais biológicas ao longo de longos períodos de evolução, o que permite ao cérebro aprender coisas novas e tomar decisões. Yann Lecan propôs em 2022 um sistema cíclico para treinar IA em um ambiente emulado — o Ciclo Percepção-Planejamento-Ação. Essencialmente, estamos falando da criação de um ambiente digital dinâmico (um mundo simulado) para o modelo inicial, que, por meio de recompensas e punições em resposta às decisões que toma, o forçaria a evoluir de forma independente. Não reproduzindo exatamente os estágios de desenvolvimento das redes neurais biológicas, é claro, mas pelo menos seguindo um caminho comparável em complexidade.
Este é, obviamente, um empreendimento custoso — especialmente considerando os recursos já investidos no amplo desenvolvimento do ArBIAM, cuja natureza sem saída é cada vez mais reconhecida pelos pesquisadores. Uma coisa é clara: a inteligência artificial do futuro terá que adquirir as capacidades de planejamento de longo prazo e pensamento abstrato.É preciso pensar, ter lógica formal, entender o contexto das afirmações — e muito mais — (se não adquirido, pelo menos aprendido a imitá-lo a ponto de ser completamente indistinguível para um observador vivo) antes que ele possa ser chamado de “forte” em qualquer sentido. Infelizmente, isso ainda está muito longe.
⇡#Materiais Relacionados
