Os modelos modernos de inteligência artificial, como o GPT-5 da OpenAI, demonstram pelo menos duas funções essenciais de processamento de dados: memória, que consiste na recuperação de informações adquiridas durante o treinamento, e raciocínio, que consiste na resolução de novos problemas utilizando princípios aprendidos. Pesquisadores da startup Goodfire.ai obtiveram evidências convincentes de que os modelos acessam diferentes áreas de sua arquitetura ao executar essas funções.

Fonte da imagem: Igor Omilaev / unsplash.com
Arquitetonicamente, as funções de memória e raciocínio são surpreendentemente bem separadas: ao remover as regiões responsáveis pela memória, os cientistas privaram o modelo de 97% da capacidade de reproduzir dados aprendidos, preservando sua capacidade de raciocinar logicamente. Por exemplo, na 22ª camada do modelo de linguagem OLMo-7B, 50% dos componentes de peso foram ativados 23% mais frequentemente ao acessar a memória, enquanto os 10% principais foram ativados 26% mais frequentemente ao trabalhar com texto fora da memória. Essa separação permitiu que os cientistas removessem cirurgicamente a capacidade do modelo de lidar com a memória, preservando suas outras capacidades.
O que surpreende é que, ao processar operações aritméticas, o modelo acessa as regiões arquitetônicas responsáveis pela memória, e não pelo raciocínio. Quando seus mecanismos de memória foram removidos, seu desempenho em operações matemáticas caiu até 66%, enquanto seu desempenho em problemas lógicos permaneceu praticamente inalterado. Isso pode explicar por que os modelos de IA têm dificuldades com matemática quando não conseguem se conectar a ferramentas externas: eles tentam recuperar operações aritméticas de conjuntos de dados de treinamento em vez de realmente realizar cálculos. Como uma criança em idade escolar que memorizou a tabuada, mas não entendeu como essas operações aritméticas funcionam. Em outras palavras, no nível atual, para um modelo de linguagem, a expressão “2 + 2 = 4” representa mais um fato memorizado do que uma operação.
Observa-se também que, quando aplicado à IA, o conceito de raciocínio descreve um conjunto de habilidades que podem não corresponder aos mecanismos de raciocínio humano. Os mecanismos de memória são usados pelos modelos quando…Avaliar a veracidade ou falsidade de afirmações e seguir regras “se-então”; os modelos podem realizar simples reconhecimento de padrões, mas isso é insuficiente para o raciocínio matemático complexo necessário para provar ou resolver novos problemas.
Na prática, isso significa que os desenvolvedores de IA poderão, eventualmente, remover materiais protegidos por direitos autorais, dados pessoais ou conteúdo potencialmente perigoso da memória do modelo, preservando sua capacidade de resolver problemas de transformação. No entanto, os mecanismos da memória da IA ainda não são totalmente compreendidos, e os autores do estudo enfatizam que seu método não garante a exclusão completa de dados sensíveis.

Fonte da imagem: Steve Johnson / unsplash.com
Para distinguir entre mecanismos de memória e raciocínio, os pesquisadores do Goodfire recorreram ao conceito de “paisagem de perda” — uma visualização de previsões errôneas e corretas ao alterar configurações internas, ou pesos do modelo. Imagine um modelo de IA como uma máquina com vários milhões de mostradores, e chamemos um grande número de erros de alta perda e um pequeno número de baixa perda. Nesse caso, a paisagem é um mapa das taxas de erro para cada combinação possível desses mostradores. O treinamento do modelo envolve percorrer essa paisagem, ajustando os pesos para encontrar pontos com o número mínimo de erros. Como resultado desse processo, o modelo começa a responder perguntas de forma coerente e correta.
Para analisar e manipular a paisagem, os cientistas usaram o método de Curvatura Aproximada Fatorada de Kronecker (K-FAC), que permitiu estabelecer que cada fato de memória cria saltos acentuados, mas como esses saltos ocorrem em direções diferentes, o padrão médio geral é plano. As habilidades de raciocínio, por outro lado, são expressas como “colinas” de inclinação moderada em todas as direções. Os pesquisadores testaram suas descobertas em grandes modelos de linguagem OLMo-2 com 1 e 7 bilhões de parâmetros — o Allen Institute, que os desenvolveu, também fornece os conjuntos de dados de treinamento usados em sua criação. Os experimentos também utilizaram modelos de análise de imagem ViT-Base, treinados em conjuntos de dados ImageNet modificados, nos quais os dados foram intencionalmente rotulados incorretamente para controlar o desempenho da memória. Eles compararam os resultados das manipulações usando K-FAC com métodos de edição existentes.Memória, incluindo BalancedSubnet.
Os pesquisadores removeram seletivamente fragmentos de baixa curvatura dos modelos treinados, reduzindo o desempenho da memória de 100% para 3,4%, enquanto mantiveram a capacidade de raciocínio lógico em 95–106% da linha de base. As tarefas lógicas incluíam operações booleanas, relações “se A é maior que B” e benchmarks. Ao resolver problemas matemáticos complexos, os modelos continuaram a raciocinar com sucesso, mas apresentaram dificuldades durante a fase computacional. Curiosamente, após a edição, eles retiveram fatos comuns, como capitais de países, mas tiveram um desempenho 78% pior na identificação de CEOs — em outras palavras, os recursos na arquitetura são alocados com base na frequência das informações encontradas durante o treinamento.
O método K-FAC provou ser o mais eficaz na melhoria da memória do modelo — no exemplo de citação histórica, ele reteve apenas 16,1% dos dados aprendidos, em comparação com 60% para o método BalancedSubnet, que foi considerado o mais eficaz. Resultados semelhantes foram obtidos com modelos visuais — transformers.
Os cientistas enfatizaram que o método proposto não é perfeito. Dados removidos da memória podem retornar rapidamente durante treinamentos subsequentes, o que significa que a informação é suprimida, e não completamente apagada, dos pesos da rede neural. Os pesquisadores também não encontraram explicação para o motivo de a memória estar tão intimamente ligada à capacidade matemática: não está claro se a IA simplesmente memoriza operações aritméticas ou as processa por meio de circuitos neurais semelhantes. Algumas operações complexas podem, de fato, assemelhar-se a circuitos de memória.mas, na verdade, representam padrões de raciocínio complexos. Em alguns casos, os métodos matemáticos usados para avaliar o “panorama” do modelo mostram-se pouco confiáveis, mas os resultados das operações continuam eficazes.
