Dave Plummer, desenvolvedor veterano da Microsoft e criador de diversos componentes essenciais do Windows, demonstrou um modelo de IA transformador “rodando em hardware mais antigo do que a maioria das pessoas que discutem sobre Inteligência Artificial Geral (IAG) online”. Em um vídeo publicado recentemente, o desenvolvedor veterano se propôs a desmistificar a IA, revelando seu “segredinho sujo”.

Fonte da imagem: Dave Plummer / YouTube

Este segredo é amplamente revelado no início da descrição do vídeo do desenvolvedor. “Dave usa um PDP-11 para treinar uma rede neural real, incorporando Transformers e um mecanismo de atenção, para que você possa vê-los em sua forma mais simples”, diz a descrição. O sistema em questão é um PDP-11 de 47 anos, equipado com um processador de 6 MHz e 64 KB de RAM. Este dispositivo executa um modelo de IA baseado em Transformers chamado Attention 11, escrito em linguagem assembly para PDP-11 por Damien Buret.

À primeira vista, a tarefa que o PDP-11 “aprenderá” a executar parece elementar: ele deve construir uma sequência inversa de oito números. No entanto, o modelo precisa aprender uma regra estrutural específica, em vez de memorizar exemplos de treinamento, para processar com sucesso quaisquer dados de entrada. Plummer observa que isso reflete o princípio básico subjacente a modelos de linguagem modernos como o ChatGPT.

Apesar de usar um modelo de transformador projetado especificamente para o PDP-11, Plummer precisou otimizar o sistema devido às limitações de poder computacional disponível. Curiosamente, o modelo resultante possui apenas 1.216 parâmetros. Ele utiliza computação de ponto fixo, comprimindo os cálculos de propagação direta para uma precisão de 8 bits e otimizando cada ciclo para permitir que a máquina conclua o treinamento em um tempo razoável.

“Estamos vendo uma anatomia simplificada do próprio treinamento. O modelo começa de forma rudimentar. A taxa de erro é inicialmente alta. A precisão oscila a cada passo, pois…””Imagine uma pessoa tentando montar móveis da IKEA na traseira de um caminhão de mudanças. Em algum momento do processo, os pesos gradualmente se alinham em um padrão específico. O mecanismo de atenção descobre uma regra para inverter a sequência. E a máquina finalmente cruza essa linha invisível — da adivinhação ao conhecimento”, explicou Plummer.

Os resultados de um experimento de treinamento de IA em um dispositivo antigo com um processador de 6 MHz foram bastante inesperados. Um entusiasta treinou o modelo até atingir 100% de precisão na tarefa de construir uma sequência reversível de números em cerca de 350 etapas de treinamento. Em um PDP-11/44 com uma placa de memória cache, isso levou cerca de 3,5 minutos.

Essencialmente, Plummer tentou provar que os sistemas de IA modernos usam a mesma mecânica — ou seja, muita aritmética, repetição de etapas e correção de erros para melhorar os resultados. “Essa máquina antiga não pensa de uma forma mística.” “Ele simplesmente realiza operações aritméticas para atualizar alguns milhares de números cuidadosamente armazenados. E esse é o objetivo principal. Grande parte do fascínio da IA ​​moderna vem de fazer isso em uma escala impressionante. Mas o processo fundamental de aprendizado em si já está totalmente representado aqui em miniatura”, explicou Plummer.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *