Inteligência Artificial Analógica: Agora Baseada em Capacitores / Offsyanka

Em meados de 2025, a EnCharge AI, uma startup fundada por Naveen Verma, professor da Universidade de Princeton, anunciou que havia iniciado a produção em massa de seu acelerador de IA analógico EN100. Segundo a desenvolvedora, esse chip oferece um desempenho 20 vezes superior aos chips tradicionais usados ​​em aceleradores gráficos da Nvidia ou AMD para PCs, permitindo a execução local de modelos de IA. Uma placa de expansão M.2 com um único processador, contendo o EN100 e todo o hardware necessário, oferece, de acordo com a desenvolvedora, um desempenho de 200 trilhões de operações por segundo (TOPS), consumindo no máximo 8,25 watts de energia, e foi projetada para instalação em computadores pessoais, incluindo dispositivos móveis. Uma placa com quatro processadores e interface PCIe para estações de trabalho e sistemas periféricos (edge ​​computing) também está disponível, atingindo o limite de 1000 TOPS.

Inteligência artificial local mesmo sem radiadores passivos? Dizem que vai funcionar (fonte: EnCharge AI)

De modo geral, inúmeros protótipos de computadores elétricos promissores (precisamente elétricos; fotônica é assunto para outro artigo) que implementam o princípio analógico da computação em memória (IMC) para resolver problemas de IA têm surgido nos últimos anos. E, em sua maioria, são baseados em elementos elétricos resistivos — resistências variáveis ​​de vários tipos. A chave é que a multiplicação de matrizes — a base para a operação de grandes modelos de linguagem (LMLs) — é implementada com perfeição em circuitos analógicos com resistores variáveis, graças à combinação excepcionalmente bem-sucedida de duas leis fundamentais que descrevem o funcionamento desses circuitos. Estamos falando da lei de Ohm, que representa a corrente como o produto da tensão e da condutância (o inverso da resistência), e da primeira lei de Kirchhoff: a soma algébrica das correntes que entram em um determinado nó é igual à soma das correntes que saem dele. Descobriu-se que as condutâncias (ou resistências, dependendo de como você se sente mais confortável em calculá-las) atuam como pesos nas entradas do perceptron, e as correntes que se propagam ao longo dos barramentos individuais atuam como sinais modificados por esses pesos. É tudo muito simples e maravilhoso, mas esses protótipos promissores, cujas notícias circulam em sites especializados há anos, apesar de suas inegáveis ​​vantagens potenciais, ainda não entraram em produção em massa e, no geral, há poucos sinais de progresso significativo no campo dos IMCs resistivos.

A abordagem da EnCharge AI, no entanto, é um pouco diferente: esta empresa não se baseia em resistências variáveis ​​de qualquer tipo.Fisicamente, em vez de capacitores em miniatura formados por fotolitografia em um substrato de silício, as chances de se obter um resultado satisfatório parecem ser ligeiramente maiores. Pelo menos, os desenvolvimentos lançados recentemente continuam a todo vapor: a startup já concluiu a primeira fase de seu programa de acesso antecipado, coletou feedback de parceiros, incorporou seus comentários e está se preparando para lançar a segunda fase. A EnCharge AI está colaborando ativamente com OEMs e desenvolvedores de software para integrar suas soluções em dispositivos de clientes e ecossistemas de software — por exemplo, PCs executando o Microsoft Copilot localmente. Qual é a principal vantagem da computação de IA analógica baseada em capacitores em relação à resistiva?

Um assistente pessoal inteligente — em cada laptop! (Fonte: EnCharge AI)

⇡#Estocástica em Excesso

Como já observamos, o funcionamento dos sistemas de IA modernos se resume essencialmente à previsão autorregressiva do próximo token em uma cadeia, iniciada por uma solicitação do usuário (seja em texto ou qualquer outra forma, é irrelevante — ela será convertida em tokens). A fórmula para determinar o próximo termo da sequência autorregressiva inclui um termo estocástico — aleatório —, aquela mesma “loucura” não algorítmica que torna a resposta às consultas do usuário mais humana, mas que também é em grande parte responsável pelas alucinações inerentes aos modelos de IA modernos. O componente estocástico é essencial para modelar digitalmente a operação de redes neurais na memória das máquinas de von Neumann; outra questão é que seus desenvolvedores tentam moderar e controlar sua influência. E quanto à aleatoriedade em computadores resistivos analógicos — em particular, memristores?

Acontece que existe uma quantidade excessiva disso e, pior, é praticamente impossível de ajustar com precisão. Formalmente falando, mesmo pulsos únicos (estrobos) que se propagam pelos circuitos de um sistema computacional ainda representam correntes analógicas. No entanto, seu registro é essencialmente discreto: em termos gerais, se a tensão de operação de um circuito é de 5 V, o sistema de registro pode interpretar um pico de 2,7 V, 3,3 V e, principalmente, 5,2 V como um “1 lógico”, enquanto um “0 lógico” pode ser, por exemplo, 0,2 V ou 0,8 V. Em outras palavras, no nível do circuito lógico.Os sinais ainda serão discretos, mesmo que seus valores reais se desviem significativamente dos valores padrão — devido a interferências parasitas, por exemplo. Um sinal analógico, por outro lado, é contínuo; é crucial que, ao ser transmitido de um circuito lógico para outro, um valor de, digamos, 1,8 V não se transforme em 1,6 V, muito menos em 2,1 V. Caso contrário, a informação enviada para o próximo estágio de processamento estará simplesmente incorreta e o sistema terá um benefício insignificante.

O gargalo de von Neumann entre a memória principal, que armazena trilhões de pesos BNM, e a unidade lógica aritmética (ULA), onde as operações sobre esses pesos são realizadas, dificulta seriamente o desenvolvimento da IA ​​(fonte: IBM).

Mesmo ignorando as distorções do sinal analógico durante a transmissão entre os nós individuais do circuito computacional, esses nós, infelizmente, também apresentam suas falhas. Considere, por exemplo, uma direção de desenvolvimento popular para máquinas de IA analógicas como os sistemas baseados em células de memória resistiva de acesso aleatório (RRAM), que parecem perfeitamente adequadas para implementar computações de baixo consumo e grande escala diretamente na memória, contornando o notório gargalo de von Neumann. A condutividade de cada célula RRAM codifica diretamente o peso sináptico em uma determinada entrada de um dos perceptrons, de modo que, com um número suficiente dessas células, sem quaisquer truques técnicos especiais, é possível construir uma rede neural profunda e densa natural — física, não emulada na memória de um servidor clássico com alto consumo de energia. Mas aqui está o problema: durante o treinamento dessa rede neural, os valores dos pesos terão que ser alterados, e para a RRAM esse procedimento é implementado aplicando-se uma voltagem suficientemente alta à célula selecionada por um tempo estritamente definido. E como não é possível criar duas células completamente idênticas (até mesmo no número de átomos que as compõem e em suas posições relativas), quando expostas ao mesmo pulso (deixemos de lado a questão da possibilidade fundamental de formar independentemente dois pulsos completamente idênticos em um circuito lógico analógico), o resultado será diferente.A condutividade irá variar ligeiramente. Pode ser por centésimos ou até décimos de milésimo de um por cento, mas dada a escala das NVMs modernas em termos do número de parâmetros (esses mesmos pesos sinápticos), que já chegam aos trilhões, é evidente que os erros no treinamento de uma IA implementada em RRAM inevitavelmente se acumularão, e quanto maior o modelo, mais cedo as imperfeições estocasticamente determinadas da plataforma de hardware se manifestarão.

⇡#Tudo se resume às capacitâncias mágicas

Os defensores da IA ​​analógica resistiva não estão desistindo, é claro: vários métodos são propostos para compensar o ruído (excesso de estocástica) que inevitavelmente surge a cada transação dentro de uma rede neural física. É possível incorporar a “precognição” sobre um certo nível básico de ruído natural e inevitável nos sinais que chegam aos perceptrons na própria arquitetura do modelo — por exemplo, reduzindo adequadamente o valor absoluto do termo estocástico na fórmula para calcular o termo subsequente da série autorregressiva. Poderíamos tentar encontrar sistemas físicos cuja resistência varie de forma mais previsível do que no caso das células RRAM. Por exemplo, a IBM, que desenvolve ativamente computadores analógicos com IA, apostou em dispositivos de memória de mudança de fase (PCM). As células PCM armazenam pesos sinápticos como valores de condutância analógica, alternando entre estados amorfos (alta resistência) e cristalinos (baixa resistência) sob a influência de impulsos elétricos. Chips desse tipo já saíram do laboratório: eles são fabricados usando o processo de 14 nm.As tecnologias do Complexo de Nanotecnologia da IBM em Albany permitem alcançar alta densidade nas redes neurais físicas resultantes — mais de 35 milhões de elementos de comutação em um único chip — e independência energética, já que o estado de fase da célula é mantido sem alimentação externa. Além disso, as ferramentas de software para sua implementação são fornecidas pela própria IBM, como código aberto: AIHWKit, uma estrutura baseada em PyTorch para treinamento e inferência de modelos nesse tipo de hardware analógico. A precisão dos modelos baseados em chips PCM é bastante alta: no benchmark CIFAR-10, que contém um conjunto de dados de referência para tarefas de aprendizado de máquina e visão computacional, eles alcançam mais de 92,8 pontos de 100, demonstrando uma eficiência energética duas ordens de magnitude maior em comparação com GPUs tradicionais que emulam redes neurais com propósitos e capacidades semelhantes.

Um chip produzido em massa com células PCM para computação analógica de IA parece promissor, mas, na prática, possui um leque de aplicações bastante limitado (fonte: IBM).

No entanto, ainda não há notícias sobre a substituição em massa de racks de servidores de alto consumo energético em data centers de hiperescala, repletos dos mais recentes aceleradores da Nvidia, por processadores analógicos baseados em PCM com eficiência energética. Há muitas razões para isso: a imperfeição das tecnologias atuais para produzir células minúsculas a partir de uma substância capaz de alterar seu estado de fase sob a influência de corrente elétrica (aqui, novamente, manifesta-se a inevitável dissimilaridade microscópica mesmo entre duas células adjacentes no mesmo substrato), a deriva estrutural natural, embora extremamente lenta, inerente a essa substância, de seu estado atual – cristalino ou amorfo – para algum estado intermediário (grosso modo, de acordo com uma lei logarítmica: a resistência de uma célula PCM varia ao longo do tempo como log(t) com um coeficiente de 0,10 a 0,15) e o desempenho limitado em termos da gama de tarefas que podem ser resolvidas. Este último ponto é especialmente importante do ponto de vista prático: embora a eficiência energética (desempenho por watt de energia consumida) dos processadores PCM seja de fato de uma ordem e meia a duas ordens de magnitude superior à das GPUs clássicas no caso de reconhecimento de imagens estáticas, por exemplo, ao conduzir uma conversa ao vivo com um operador em linguagem natural, os produtos da IBM perdem para os chatbots que são comuns hoje em dia nesse aspecto — por uma margem semelhante. Em geral, para aplicações de IA de alto desempenho, onde a velocidade de processamento dos dados de entrada pelo modelo é crucial.Em termos de valor, o hardware clássico permanece inigualável — pelo menos quando comparado a computadores analógicos resistivos. Embora consuma muita energia, é inerentemente versátil: na memória de uma máquina organizada segundo os princípios de von Neumann, é possível emular (se o algoritmo apropriado estivesse disponível!) qualquer coisa — algo que dificilmente seria alcançado em formato analógico.

Os desenvolvedores da startup EnCharge, que mencionamos no início, aparentemente convencidos da futilidade da computação analógica resistiva para IA, seguiram um caminho diferente: em vez de resistência, eles se basearam na capacitância. A carga armazenada por um capacitor de placas paralelas, como sabemos, é igual ao produto da capacitância do componente pela tensão entre suas placas. É importante notar que a capacitância de um capacitor é determinada exclusivamente por suas características físicas: a forma, o tamanho e o espaçamento das placas, bem como as propriedades do dielétrico entre elas. Fabricar um capacitor em um substrato de silício usando fotolitografia é, pode-se dizer, uma tarefa trivial: tudo o que você precisa são dois condutores planos e uma região dielétrica entre eles. Quanto maior a área das placas condutoras e menor o espaçamento entre elas, maior a capacitância. Os métodos modernos de fabricação de semicondutores são reconhecidos por sua excepcional precisão, o que lhes permite manter os parâmetros geométricos de micro e até nanoestruturas criadas em um substrato de silício. De fato, os chips capacitivos EnCharge são, na verdade, chips híbridos digitais-analógicos.Estruturas: na camada inferior desses microcircuitos, formam-se circuitos lógicos, como esperado, e placas de cobre são integradas às camadas de interconexão localizadas acima delas – pares das quais formam capacitores microscópicos.

As vantagens alegadas da computação capacitiva analógica em memória em comparação com as tecnologias digitais clássicas e aquelas baseadas em tecnologias resistivas (baseadas em corrente, em vez de carga) (fonte: EnCharge)

⇡#Digital, analógico… O importante é o resultado!

Navin Verma teve a ideia de usar capacitores para computação em memória (IMC) em 2017 e dedicou grande parte do seu tempo no laboratório da Universidade de Princeton que dirigia ao seu desenvolvimento — com o apoio da DARPA e da TSMC, aliás. O uso de cargas em vez de correntes em sistemas de computação não é incomum; veja, por exemplo, os capacitores chaveados baseados em comparadores (CBSCs), que são excelentes substitutos para amplificadores operacionais de alto ganho em uma ampla gama de circuitos de amostragem de dados de alta precisão, incluindo conversores analógico-digitais e digitais-analógicos, circuitos de amostragem e retenção, integradores e filtros. A inovação de Verma e seu grupo foi compreender como usar componentes tão promissores para implementar cálculos diretamente na memória. Ressaltamos novamente que a capacitância de um capacitor com parâmetros estritamente especificados é rigidamente fixada, de modo que, para capacitores fabricados no mesmo substrato com geometria idêntica dentro dos limites de erro, as capacitâncias coincidirão com grande precisão. Assim, em uma equação com dois fatores — “carga = capacitância × tensão” — o primeiro pode ser considerado uma constante para todos os elementos de uma rede neural física, mesmo dentro de certos limites.Não apenas um único chip, mas um grande lote ou uma geração inteira de uma só vez. Enquanto os computadores de IA resistivos se baseiam na lei de Ohm — “corrente = condutância × tensão” — eles precisam lidar com uma grandeza muito mais suscetível a flutuações aleatórias (de célula para célula), ou seja, a condutância (resistência reversa) de elementos individuais do circuito.

No entanto, diferentemente dos memristores e sistemas similares que dependem de resistência variável, o circuito implementado pelo EnCharge dificilmente pode ser considerado completamente analógico: essa é a desvantagem de sua inegável vantagem: a capacitância dos nanocapacitores litografados em um substrato de silício é fixa. Para ajustar os pesos sinápticos na rede neural implementada por tal sistema, os dados sobre eles devem ser armazenados em uma matriz de células de memória SRAM, cada uma conectada a um capacitor correspondente. Circuitos (embora estruturalmente bastante simples) também são necessários para converter a corrente que chega a uma determinada sinapse — levando em consideração o peso atribuído a essa célula específica — em uma carga de magnitude específica, que será armazenada no nanocapacitor. No entanto, a adição de cargas provenientes de células correspondentes à camada anterior da rede neural profunda ocorre naturalmente e praticamente sem perda de qualidade (sem o acúmulo de ruído parasita adicional), tornando um computador de IA analógico capacitivo (ou, mais precisamente, analógico-digital) mais atraente do que muitos computadores resistivos propostos até o momento.

A relação sinal-ruído para processadores de memória de IA analógicos que utilizam corrente aumenta acentuadamente com o aumento da corrente, enquanto que, para sistemas construídos com nanocapacitores, os erros inevitáveis ​​que surgem durante a operação podem ser considerados negligenciáveis ​​(fonte: EnCharge).

É importante reiterar a eficácia do capacitor como meio de armazenamento final para pesos sinápticos: sua capacitância é independente da temperatura do dispositivo semicondutor (pelo menos até que seu aumento altere significativamente sua geometria) e de outros fatores externos, de modo que a relação entre carga e tensão é, em uma ótima aproximação das condições de operação, estritamente linear. A soma das cargas da camada anterior é realizada analogamente e, em seguida, para converter o valor resultante em formato digital (devido à corrente que transmitirá informações sobre a soma do sinal para a próxima camada da rede neural), basta um conversor analógico-digital simples, que também não introduz distorções significativas no resultado. Sem dúvida, o EnCharge ainda tem espaço para melhorias: em particular, os modelos de IA modernos são absurdamente grandes (ou seja, devido ao número de parâmetros com os quais operam) e, portanto, mesmo uma configuração de quatro chips não consegue carregar todos os mais relevantes. As redes neurais precisam ser fragmentadas e os sinais devem ser processados ​​sequencialmente. Para reduzir a sobrecarga de hardware, o grupo de Verma está usando uma “arquitetura virtualizada, semelhante à memória virtual”.Assim, distanciando-se ainda mais da implementação puramente analógica da RAM.

No entanto, parece que essa direção intermediária — já conhecida como “computação digital em memória” (DIMC) — é a mais promissora se os desenvolvedores desejam manter sua dependência de uma base de semicondutores bem estabelecida e evitar o empíreo extremamente dispendioso (justamente devido à falta de uma base de produção comparável, com décadas de existência) de abordagens fundamentalmente diferentes; por exemplo, a fotônica. Devemos mencionar a empresa d-Matrix, que está desenvolvendo multiplicação de matrizes diretamente em células de memória, sem a necessidade de mover pesos para e dos circuitos lógicos. A plataforma de computação, chamada Corsair, é formada por chiplets, cada um contendo núcleos neurais com unidades DIMC integradas e um núcleo de gerenciamento de fluxo de dados RISC-V. Os aceleradores Corsair já estão planejados para integração na Gimlet Cloud, onde, dentro da estrutura de uma arquitetura híbrida, os processadores clássicos da Nvidia lidarão com os estágios de inferência que exigem muitos recursos, enquanto as operações particularmente sensíveis à latência serão redirecionadas para nós DIMC. Uma abordagem ligeiramente diferente foi adotada pela empresa holandesa Axelera AI, que recentemente arrecadou US$ 250 milhões para o desenvolvimento de aceleradores de IA na Europa. Nela, os cálculos digitais na memória são implementados usando SRAM: matrizes de células interconectadas são usadas tanto para armazenar pesos quanto para realizar operações de multiplicação de matrizes sem transmitir dados para circuitos lógicos. Como essas operações são realizadas de forma não analógica (não por meio da adição de correntes ou outras operações contínuas), a Axelera AI consegue otimizar a computação digital em tempo real.Ao utilizar circuitos lógicos integrados simples, esta implementação em DIMC, segundo seus desenvolvedores, é “imune a ruídos analógicos e imperfeições de memória, proporcionando alta precisão com pesos INT8 e acumulação INT32, mantendo a precisão FP32 sem necessidade de retreinamento”. A Axelera AI também possui produtos prontos para uso por parceiros interessados ​​— o chip Metis AIPU e o SDK Voyager — e espera lançar futuramente uma placa de expansão PCI-e e um computador de placa única para inferência de IA. O chipset Titania, financiado pela EuroHPC JU e voltado para uso em servidores, está sendo considerado como a base para a construção de um ecossistema de IA soberano na Europa.

Em resumo, processadores de IA capacitivos (parcialmente) analógicos têm uma chance significativa de se juntarem a outros desenvolvimentos em DIMC, aumentando assim a diversidade de plataformas disponíveis para melhorar a eficiência energética da computação de IA. A questão crucial é garantir financiamento suficiente para todos: tanta coisa aconteceu no mercado de TI nos últimos trimestres — desde um aumento radical nos preços dos semicondutores até a ameaça de redução no fornecimento global de hélio e componentes essenciais — que simplesmente não há fundos disponíveis suficientes, muito menos empréstimos acessíveis, para todos os projetos promissores. Investidores que buscam minimizar riscos provavelmente continuarão a apoiar amplamente áreas em desenvolvimento — ou seja, áreas já comprovadamente viáveis ​​— nessas condições. E embora mudanças radicais ainda sejam esperadas no setor puramente de software (grosso modo, David, os “modelos globais” que estão sendo desenvolvidos pela Advanced Machine Intelligence Labs)Se a RAM finalmente conseguir superar o gigante da RAM clássica, então, em termos de hardware, dificilmente veremos uma mudança drástica no direcionamento de recursos para arquiteturas de computação não-Von Neumann, mesmo aquelas que não são tão radicalmente diferentes das clássicas — como o próprio DIMC.

Um dos protótipos de pré-produção do computador de IA capacitivo (fonte: EnCharge AI)

admin

Compartilhar
Publicado por
admin

Postagens recentes

Crimson Desert começou a funcionar em algumas placas gráficas Intel, mas é melhor não ativar o FSR.

Crimson Desert começou a funcionar em pelo menos alguns sistemas com placas gráficas Intel Arc…

4 horas atrás

“Morra, adapte-se, evolua”: o frenético jogo de ação roguelite Morbid Metal entrou em Acesso Antecipado e recebeu elogios dos jogadores.

A desenvolvedora Screen Juice, com o apoio da Ubisoft, abriu o acesso antecipado de Morbid…

4 horas atrás

“Esperei por algo assim durante 20 anos”: O primeiro trailer de jogabilidade do RPG de ação Alkahest encantou os fãs de Dark Messiah of Might and Magic.

Na Triple-i Initiative 2026, a editora HypeTrain Digital e os desenvolvedores do estúdio cipriota Push…

5 horas atrás