O ciclo de produção de processadores clássicos hoje envolve litografia em massa, dezenas de chips por vez, em um único wafer, seguida pelo corte do wafer em chips individuais, que são então encapsulados em embalagens com contatos convenientes. Somente então os processadores encapsulados (central, gráfico e tensor) são colocados nas placas de circuito dos sistemas de computação, que, por sua vez, podem ser combinados em níveis superiores para formar servidores de dois soquetes (ou mais), plataformas de virtualização multiprocessador, clusters de computadores e assim por diante. A abordagem da startup californiana Cerebras Systems é bastante original nesse aspecto: seu motor em escala de wafer (WSE, na sigla em inglês), como o nome sugere, ocupa um quadrado inteiro de 46.225 mm² (215 x 215 mm) dentro de um wafer de 300 mm.

À primeira vista, a solução parece bastante razoável — especialmente da perspectiva de aplicações de servidor. É improvável que um PC doméstico precise de um processador tão monstruoso, mas para tarefas sérias, eliminar a necessidade de perder tempo e recursos cortando e encapsulando chips menores e, em seguida, estabelecendo interconexões de alta velocidade entre eles (dentro de um rack de servidores e/ou cluster) é uma vantagem significativa. Já na primeira geração, o rei dos chips — os microprocessadores WSE-1 (ou macroprocessadores?) fabricados em agosto de 2019 usando a tecnologia de processo de 16 nm da TSMC — continha 1,2 trilhão de transistores, alguns dos quais alocados para células de RAM locais com capacidade total de 18 GB. O atual WSE-3 (março de 2024, “5 nm”) pode ostentar 4 trilhões de transistores e 44 GB de RAM integrada de alta velocidade — SRAM.Além disso, se os blanks de 450 mm (18 polegadas) de diâmetro já tivessem se tornado a nova base para a produção de chips (o que poderia ter acontecido em meados da década de 2010, mas a TSMC, a IBM e a GlobalFoundries não ousaram fazer uma mudança tão radical no padrão, temendo que isso daria ainda mais vantagens à Intel e à Samsung, que já lideravam o mercado na época), o desempenho do WSE-3, ampliado para 450 mm na diagonal, aumentaria imediatamente em 2,25 vezes: para tornar um processador desse tipo mais poderoso, basta aumentá-lo de tamanho.

“Como é que vocês chamam isso de processadores? Isso é um processador!” (Fonte: Cerebras)

Em resumo, a transição dos data centers para os chips da classe Tsar parece prometer apenas benefícios. Por que, mesmo agora, no início de 2026, os desenvolvimentos da Cerebras estão sendo usados ​​apenas em alguns supercomputadores, em um punhado de data centers, principalmente nos EUA, e será que eles sequer planejam usá-los em data centers promissores na Península Arábica? A desistência da startup de seu pedido de IPO, anteriormente previsto para o final de 2025, também é um tanto preocupante, embora, segundo a própria empresa, esteja relacionada apenas a atrasos na aprovação regulatória dos documentos do IPO e não a quaisquer dificuldades técnicas. Surge a pergunta: existe realmente demanda pelos chips da classe Tsar no mercado de TI, e especialmente entre os hiperescaladores, hoje? Se sim, qual é a sua dimensão? Afinal, como são os fabricantes dos maiores centros de dados que ditam as regras na produção global de chips hoje (e sua disposição em pagar literalmente qualquer preço pelos chips de que precisam está impulsionando o aumento sem precedentes nos preços de DRAM e NAND), eles deveriam ser os primeiros a perceber que processadores do tamanho de um wafer quadrado são mais convenientes e econômicos do que os processadores tradicionais para resolver os problemas aplicados mais importantes. Então, a era dos chips de classe Tsar realmente chegará.

⇡#A Inveja de Todos

Uma das principais limitações que os engenheiros de microeletrônica que desenvolvem a fotolitografia semicondutora clássica da indústria precisam superar é o limite físico da área máxima de projeção da fotomáscara na peça de trabalho (o limite da retícula), que é de aproximadamente 800 µm.mm²; mais precisamente, 33 x 26 mm. Estas são as dimensões máximas da área que o moderno stepper EUV da ASML pode expor em uma única passagem. Como o limite é puramente físico — ou seja, determinado pela necessidade de garantir a passagem de um feixe de raios X de (quase) 13,5 nm através de um sistema complexo de espelhos sem interromper o paralelismo dos fótons individuais dentro dele — parece impossível superá-lo apenas com truques de engenharia. Pelo menos, o planejamento interno da ASML — e esta empresa holandesa está muito à frente de todas as outras empresas do mundo na fabricação de fotolitografias — não prevê ultrapassar esse limite de área de exposição única até pelo menos 2030. Consequentemente, se um chip monolítico maior precisa ser fabricado em uma placa em branco, ele é dividido em seções que se encaixam dentro dos limites especificados, cada uma das quais recebe seu próprio conjunto de fotomáscaras (precisamente um conjunto; este é um procedimento de múltiplas passagens, já que os chips semicondutores são inerentemente multicamadas). No caso do rei dos processadores, o Cerebras, uma parte significativa de seus nós — núcleos de computação com células SRAM adjacentes e barramentos de comunicação de interconexão — são reproduzidos exatamente em toda a sua superfície, de modo que a diferença no número de conjuntos de fotomáscaras em comparação com um lote de CPUs ou GPUs clássicas não é muito grande.

Embora a notória “Lei de Moore” continue válida, apesar das previsões pessimistas de muitos céticos, os chips Cerebras — ou melhor, os servidores da série CS baseados neles — estão confiantemente superando as expectativas estabelecidas por essa profecia autorrealizável (fonte: NextPlatform).

A enorme área do chip WSE-3 proporciona não apenas uma vantagem quantitativa no número de núcleos de processamento em comparação com chips convencionais de tamanho similar — 900.000 contra quase 17.000 (mais 528 núcleos tensores especializados) no Nvidia H100 — mas também uma vantagem qualitativa na velocidade de troca de dados com a memória. Para as principais tarefas de inteligência artificial da atualidade — tanto treinamento quanto inferência — essa é uma vantagem praticamente decisiva. Graças às inúmeras células SRAM em um chip tão impressionante, que podem ser posicionadas próximas aos núcleos, a largura de banda característica para troca de dados entre elas atinge 21 PB/s no caso do WSE-3, enquanto no H100 é de apenas 0,003 PB/s. As vastas dimensões do chip também permitem que o barramento de interconexão interno (fabric) seja incrivelmente rápido, simplesmente aumentando fisicamente o número de canais paralelos: até 214 PB/s contra 0,0576 PB/s do mesmo H100. Não é coincidência que a TSMC, fabricante líder de chips taiwanesa e global, que produz diretamente o processador rei para a Cerebras, tenha desenvolvido uma tecnologia System-on-Wafer (SoW) específica para esses produtos; no entanto, além da própria startup californiana, apenas um outro cliente a utilizou até o momento: a Tesla. Mas os chips rei são capazes, além de tudo, de se combinarem em clusters: no caso do WSE-3—até 2048 nós compostos por núcleos de computação CS-3 totalmente funcionais, oferecendo desempenho máximo de 256 EFLOPS. Potência!

A Cerebras, que causou sensação em 2019 com a produção e os testes do WSE-1, foi fundada pelo especialista em design de microprocessadores Sean Lie e por Andrew Feldman, ex-fundador e CEO da Sea Micro, desenvolvedora de microservidores adquirida pela AMD em 2011. Hoje, a partir de 2026, essa iniciativa parece bastante visionária (mesmo considerando que a Nvidia ainda domina o mercado de computação voltada para IA com suas GPUs bastante tradicionais): Lie e Feldman, desde o início, previram a criação de um sistema adequado especificamente para o treinamento e a execução de modelos de inteligência artificial. Mesmo naquela época, a adequação do hardware atual para aprendizado de máquina era testada usando o benchmark MLPerf, que registrava a velocidade de treinamento de uma rede neural (inicialmente com pesos zero) até um estado em que ela fosse capaz de resolver uma série de problemas práticos, dentro de limites de erro especificados: reconhecimento de imagem, identificação visual de objetos (separadamente em imagens grandes e pequenas) e processamento de comandos em linguagem natural. Assim, as plataformas de hardware típicas daquele tempo eram, em essência, supercomputadores com arquitetura clássica; afinal, a Nvidia A100, que mais tarde se tornou a base da computação de IA, só surgiu em 2020 — levava várias horas para completar o MLPerf. Isso, por sua vez, custava dezenas de milhões de dólares: tempo de supercomputador nunca foi barato.

Esquema do computador CS-1 baseado no chip WSE-1 Tsar: o próprio processador consome 15 kW, outros 4 kW são usados ​​para alimentar o sistema de refrigeração líquida e cerca de 1 kW é usado para dissipação de calor inevitável; o total é de 20 kW para um único computador, mesmo um capaz de lidar com a emulação de uma enorme rede neural (fonte: Cerebras).

Os desenvolvedores de aprendizado de máquina estavam bem cientes de que, se quisessem treinar um modelo de linguagem em larga escala (LLM) verdadeiramente universal, teriam que passar meses, senão anos, executando tais sistemas — o que, de uma perspectiva puramente econômica, parecia simplesmente irrealista. A indústria de IA, que ainda estava em seus estágios iniciais de desenvolvimento (em comparação com hoje), enfrentava um desafio urgente: aumentar o desempenho do processamento de hardware para redes neurais profundas em 2 a 4 ordens de magnitude de uma só vez. Assim, o rei dos chips, o WSE-1, que prometia imediatamente um aumento de mil vezes no desempenho, especificamente para computações altamente paralelizáveis ​​— a mesma multiplicação de matrizes na qual todos os atuais BNMs se baseiam — foi recebido com aprovação mais do que favorável.

E não é para menos: 2 trilhões de transistores, 200.000 núcleos de computação programáveis, 18 GB de SRAM local ultrarrápida (comunicando-se com os núcleos por meio de um barramento de 9 PB/s) e até mesmo compatibilidade nativa e imediata com os ambientes TensorFlow e PyTorch, icônicos para desenvolvedores de IA, além de otimizações para trabalhar com matrizes esparsas. Não é segredo que as tarefas de aprendizado de máquina frequentemente envolvem matrizes nas quais uma parte significativa de seus elementos são esparsas.Zeros. Consequentemente, se, ao multiplicar tal matriz por um escalar ou vetor, o valor zero do produto de qualquer elemento com o zero localizado na célula em questão for imediatamente gravado no registrador final (em vez de enviar o zero juntamente com outro fator da RAM para o núcleo do processador e, em seguida, retornar o mesmo zero para a célula de memória), será possível economizar um número significativo de ciclos de processador. Por exemplo, o desempenho do WSE-1 ao trabalhar com números de ponto flutuante de 16 bits para matrizes densas (FP16 Dense) foi de 2,65 PFlops e, para matrizes esparsas (FP16 Sparse), foi de 26,5 PFlops; uma vantagem de uma ordem decimal inteira!

Os desenvolvedores do WSE-1 tiveram que projetar seu próprio gabinete para o Tsar-Chip e um sistema de resfriamento capaz de lidar com sua enorme dissipação de calor — ninguém havia enfrentado tais problemas antes (fonte: Cerebras).

⇡#Vantagens Visíveis

A natureza subótima dos sistemas de von Neumann para resolver problemas de aprendizado de máquina — especialmente ao trabalhar com matrizes realmente grandes — já foi observada há muito tempo. O problema é que tanto investimento foi feito em computadores semicondutores baseados nos princípios de von Neumann ao longo de muitas décadas que é extremamente difícil para outros tipos de computadores, por mais promissores que sejam, alcançá-los em um prazo razoável. A ideia do Tsar-Chip da Cerebras parecia um compromisso perfeitamente razoável no final da década de 2010: por um lado, as tecnologias estabelecidas são aplicáveis ​​à fabricação de tal chip; por outro lado, a capacidade de SRAM de sua primeira versão, o WSE-1 (18 GB), permitia que ele fosse totalmente carregado com qualquer NRAM atual, evitando assim o desperdício de preciosos ciclos de processador na transferência de dados intermediários da RAM externa (DRAM) para os núcleos de computação e vice-versa. No entanto, o desenvolvimento de modelos generativos provou ser tão rápido que essa inegável vantagem dos processadores baseados em Tsar rapidamente perdeu sua relevância: 18 GB começaram a se tornar insuficientes para eles, e aumentar a capacidade de SRAM reduzindo o número de núcleos de processamento seria altamente ineficiente. Por esse motivo, já em 2021, a próxima geração de computadores Cerebras, o CS-2, adquiriu um subsistema de armazenamento MemoryX externo ao próprio chip baseado em Tsar e um controlador de interconexão.(máquina de tecido) SwarmX. A zona MemoryX é formada por módulos de memória DRAM e NAND, visto que nem todos os perceptrons em uma rede neural profunda estão simultaneamente envolvidos em seu treinamento e, portanto, nem todos precisam estar localizados próximos aos núcleos de computação. No entanto, a transição para memória externa impactou significativamente a velocidade de transferência de dados dentro do cluster de computação. Para conectar as máquinas CS-2, foi utilizado o ambiente de transferência de dados SwarmX, baseado em canais 100GbE usando a tecnologia RoCE RDMA, atingindo uma taxa de transferência de 150 Tbps. Para comparação, o NVLink 6.0, que fornece conexões entre nós da plataforma Nvidia Rubin em configurações de grande escala (74 GPUs por rack), permite transferências de até 260 TB/s graças ao seu ambiente de troca de malha ultradensa.

A interconexão SwarmX, introduzida com o CS-2, permite que os processadores do cluster trabalhem em conjunto com uma região de memória MemoryX compartilhada (fonte: Cerebras).

Ainda assim, a multiplicação de matrizes usando a memória interna extremamente rápida continua sendo um recurso de destaque do Tsar-Chip. Mesmo na versão WSE-2, ele era capaz de realizar multiplicações envolvendo matrizes de até 100.000 x 100.000 células em uma única operação, sem dividir os dados de entrada em grupos, eliminando a necessidade de gastar tempo e recursos otimizando tais operações. Aceleradores da Nvidia, chips Tensor do Google e outros chips de dimensões tradicionais, no entanto, precisam recorrer ao paralelismo 3D complexo — o que prolonga os procedimentos de multiplicação de matrizes, aumenta o consumo de energia e eleva outros custos associados.

Os motores de computação CS-3 estão sendo enviados para clientes comerciais em clusters com zonas MemoryX de 24 ou 36 TB, enquanto os provedores de hiperescala recebem clusters ainda maiores, com 120 a 1.200 TB. Assim, clientes com orçamentos menores podem carregar todo o BNM com 720 bilhões de parâmetros na memória de um cluster desse tipo, enquanto os maiores podem carregar 24 trilhões de parâmetros, o que excede significativamente o tamanho específico da aplicação, por exemplo, do GPT-5. Embora sua arquitetura Mixture-of-Experts (MoE) exija formalmente um total de 52 trilhões de parâmetros, não mais do que 1,8 trilhão são usados ​​para responder a qualquer consulta; aproximadamente o mesmo número que o GPT-4 em sua totalidade. Um hipercluster com o número máximo possível de máquinas CS-3 (2048 unidades) incluirá 1,8432 bilhão de núcleos de computação e até 1200 TB de MemoryX (que pode ser,Aliás, ele pode ser escalado independentemente — ao contrário do híbrido Nvidia Grace Hopper —, que oferece um desempenho final de 256 EFLOPS com dados esparsos de 16 bits. O que isso significa na prática: o extremo Meta✴* treinou seu modelo Llama 2 com 70 bilhões de parâmetros em um cluster contendo 16.000 aceleradores Nvidia A100 em cerca de um mês — enquanto um hipercluster baseado em CS-3 teria concluído a mesma tarefa em menos de um dia.

O chip WES-2 consiste em nós elementares — núcleos de computação e células SRAM (à esquerda) medindo 228 x 170 µm — organizados em blocos matriciais (die, ao centro) medindo 17 x 30 mm. Cada die é litografado com o mesmo conjunto de fotomáscaras, resultando em um processador quadrado de 215 mm de largura (fonte: Cerebras).

Já em 2021, especialistas afirmavam que um cluster de processadores CS-2 (geração anterior) permitiria o treinamento de modelos de IA com desempenho comparável ao do cérebro humano. A base para tais afirmações grandiosas era a capacidade teórica máxima da zona MemoryX para tal cluster — 2,4 PB — que permite o armazenamento de até 120 trilhões de parâmetros na memória. O cérebro humano contém aproximadamente 80 bilhões de neurônios com cerca de 100 trilhões de conexões entre eles — números bastante comparáveis. É verdade que, como se verifica, os princípios de funcionamento do tecido neural biológico diferem um pouco da simples multiplicação de matrizes, mas isso não diminui as outras vantagens da arquitetura Cerebras de segunda geração e, posteriormente, de terceira geração: a tecnologia Weight Streaming, a desagregação do ambiente computacional em unidades de memória e computação compartilhadas e o escalonamento independente do tamanho e do desempenho do cluster graças ao sistema de interconexão SwarmX. Os clientes também se encantam com o escalonamento linear quase perfeito dos clusters CS, em que dobrar o número de servidores reduz o tempo de treinamento do modelo em quase o mesmo fator.

Em meados de 2023, quando o hype da IA ​​já durava mais de seis meses, a Cerebras anunciou sua prontidão para construir o supercomputador Condor Galaxy 1, baseado em computadores CS-2.(CG-1), focado especificamente na resolução de problemas de inteligência artificial. Em março de 2024, foram anunciados os chips WSE-3 Tsar, também projetados principalmente para o treinamento de BNMs promissores — promissores, visto que os modelos de ponta da época, como o GPT-4 e o Google Gemini, estavam muito aquém do limite superior do supercluster CS-3 (os já mencionados 24 trilhões) em termos de número de parâmetros operacionais. Em meados daquele ano, ficou praticamente claro que as novas máquinas Cerebras seriam focadas especificamente no treinamento, e não na inferência, de modelos de IA. Isso é totalmente lógico, já que executar um BNM pronto com uma arquitetura fixa pode ser feito com hardware muito menos monstruoso, enquanto o treinamento exige recursos de hardware significativamente maiores. Embora a plataforma de nuvem Cerebras Inference, projetada principalmente para inferência, tenha sido anunciada em agosto de 2024 como “a mais poderosa do mundo”, rapidamente começaram a surgir concorrentes igualmente impressionantes (também baseados em chips projetados pela Cerebras, embora em tamanhos mais tradicionais): a competição nesse campo é extremamente intensa. No entanto, paradoxalmente, os benchmarks industriais de inferência do MLPerf ainda dão vantagem às soluções da Nvidia, mesmo levando em consideração as melhorias contínuas de desempenho da inferência do Cerebras.

No final de 2022, com a imensa popularidade do ChatGPT, o complexo de computação Andromeda entrou em operação em Santa Clara, Califórnia. Ele consiste em 16 nós de computação CS-2 conectados por uma rede de dados SwarmX com uma taxa de transferência de 96,8 Tbps e complementados por 284 servidores baseados em AMD EPYC 7713 para pré-processamento de dados (fonte: Cerebras).

⇡#Tamanho e sua Importância

Até o final de 2024, a Cerebras, em colaboração com o Sandia National Laboratories (SNL) do Departamento de Energia dos EUA, treinou um modelo de IA de teste com 1 trilhão de parâmetros usando um único nó de computação CS-3 com 55 TB de memória MemoryX. Eles também confirmaram a escalabilidade quase linear de tais sistemas: ao usar um cluster de 16 nós de computação CS-3, o tempo necessário para o mesmo treinamento foi reduzido em um fator de 15,3. Como esses processadores da classe Tsar são realmente tão bons do ponto de vista computacional, resta apenas uma pequena pergunta: como eles se comparam em termos de custo-benefício? Infelizmente, a resposta não é tão simples. Não existem números precisos sobre quanto os clientes pagam por um cluster CS-3 totalmente equipado, mas estimativas razoáveis ​​apontam para algo entre US$ 5 e 6 bilhões — aproximadamente US$ 23,4 milhões por EFLOPS. Enquanto isso, a plataforma Meta✴*, de vanguarda, alocou US$ 25 bilhões para meio milhão de GPUs Nvidia H100 (com todo o hardware necessário, é claro), elevando seu desempenho para 1,3 EFLOPS (também para dados FP16 esparsos, como no CS-3), o que significa que desembolsou cerca de US$ 25 milhões por EFLOPS.Uma correspondência quase exata!

No entanto, não há necessidade de pressa: se você começar a entender exatamente com que dados os BNMs modernos operam, verá que a abordagem da Cerebras tem algumas vantagens.Existem algumas limitações em termos de aplicabilidade prática. Essas limitações são o reverso da moeda das inegáveis ​​vantagens da arquitetura Tsar-Chip, principalmente a extrema proximidade entre grandes quantidades de SRAM e núcleos de computação. Como já mencionado, a otimização do processamento de dados esparsos nessas condições proporciona um aumento de desempenho de quase dez vezes. No entanto, para chips de tamanho convencional, que são obrigados a gastar mais tempo movendo dados entre a RAM e os circuitos lógicos, o ganho com a otimização de dados esparsos será significativamente menor. E como os desenvolvedores de processadores tensoriais ou neurais clássicos levam essa circunstância em consideração desde o início, seus produtos lidam melhor com matrizes não esparsas (e ligeiramente esparsas) — inclusive por meio do uso de tecnologias de processo mais sofisticadas e outras otimizações de hardware — do que até mesmo o Tsar-Chip WSE-3 de 5 nm.

O princípio geral do processamento de redes neurais profundas em um chip Tsar (neste caso, o WES-2) é o seguinte: os pesos são armazenados em um ambiente MemoryX externo ao chip, enquanto o processamento (cálculo dos valores de saída do perceptron) da rede neural ocorre camada por camada no próprio dispositivo, com os valores resultantes sendo enviados imediatamente de volta para o MemoryX, sem sobrecarregar a memória interna (fonte: Cerebras).

Aqui está um exemplo: para a Nvidia H100, o desempenho ao trabalhar com dados densos em FP16 atinge 495 TFLOPS, enquanto com dados esparsos em FP16, ele quase dobra para 990 TFLOPS. Isso significa que, se os dados forem ligeiramente esparsos, um sistema com chips Nvidia levará aproximadamente o dobro do tempo para processá-los. Os chips Cerebras, por outro lado, são tão otimizados para multiplicação de matrizes esparsas que a mudança para dados densos reduz seu desempenho em uma ordem de magnitude — como mencionamos no início. Acontece que, se voltarmos à estimativa de custo por EFLOPS para o cluster CS-3 e para um sistema comparável com processadores H100, com uma redução acentuada na esparsidade dos dados de entrada, esse custo aumenta quase dez vezes no primeiro caso, enquanto no segundo, ele apenas dobra aproximadamente. No entanto, matrizes esparsas são típicas principalmente para conjuntos de dados de treinamento, enquanto a inferência geralmente envolve matrizes densas FP16. Além disso, hoje em dia, formatos de representação de dados simplificados para modelos de IA — FP8 e até mesmo formatos mais grosseiros — estão sendo cada vez mais utilizados. Os produtos da Nvidia, necessariamente mais flexíveis, são muito mais bem otimizados para esses formatos do que os processadores Cerebras, arquitetonicamente rígidos.

Como o processamento de redes neurais pode ser escalado se um único dispositivo computacional não consegue acomodar todos os dados necessários? Três abordagens principais são utilizadas: paralelização de dados (mas isso requer dispositivos capazes de multiplicar matrizes enormes na memória — e é exatamente para isso que serve a computação de espaço-tempo (WSE); paralelização de pipeline com processamento sequencial de camadas, o que exige enormes recursos de memória; e paralelização de tensores com a distribuição de fragmentos de cada camada (fatias longitudinais de uma rede neural profunda) entre dispositivos computacionais adjacentes. Isso requer interconexões extremamente rápidas entre os nós de computação — por exemplo, NVLink (fonte: Cerebras).

A desvantagem do fato de os chips WSE não exigirem paralelismo complexo nos níveis de modelo e tensor, apenas no nível de dados, é que eles carecem da flexibilidade necessária para resolver problemas para os quais sua arquitetura de hardware não é ideal. O mesmo se aplica, em linhas gerais, a todos os computadores especializados em IA: por exemplo, o Google TPU v7p Ironwood, que lida brilhantemente com formatos de representação de dados de granularidade grosseira (BF16, FP8, INT8) e é focado em inferência de IA, é incapaz de resolver tarefas de computação científica que exigem alta precisão (FP32) — tarefas que são executadas perfeitamente tanto por clusters baseados no mesmo H100 quanto por supercomputadores clássicos como o El Capitan. Temos que admitir, mais uma vez, que a força da Nvidia reside na combinação extremamente bem-sucedida de hardware altamente versátil em suas capacidades e software que implementa essas capacidades de forma brilhante; uma combinação que seus concorrentes ainda não conseguiram igualar em certas áreas.Em diversas áreas — e às vezes muito bem —, mas não de forma abrangente. Ex-funcionários da Cerebras comparam os computadores da empresa a carros de Fórmula 1: sim, eles têm um desempenho brilhante e oferecem velocidade incomparável, mas exigem um combustível de composição muito específica (ou seja, modelos clássicos de IA transformadora que envelhecem rapidamente, como os da família LLaMA) e são pouco úteis em pistas não otimizadas.

Some-se a isso as dificuldades de fabricação: é impossível fabricar um chip cuja diagonal seja igual ao diâmetro de um wafer de 300 mm sem um único defeito. Consequentemente, alguns dos núcleos de computação e/ou células SRAM em cada processador Tsar não funcionarão corretamente. Isso não é um problema de software — os nós com defeito são simplesmente excluídos do fluxo de trabalho —, mas o desempenho com controle de software adicional ainda é inferior ao que seria se os sinais fossem simplesmente roteados para as seções apropriadas de circuitos lógicos comprovadamente funcionais. Além disso, a homogeneidade dos elementos básicos que formam o WSE (núcleos de computação, SRAM, controladores de memória) impede que o chip Tsar seja verdadeiramente complexo — por exemplo, implementando um controlador de E/S de alta largura de banda em sua periferia. Sim, as soluções da Cerebras são boas para a gama de tarefas a que se destinam — não é de admirar que os investidores estejam investindo centenas de milhões de dólares nelas, bem como em outros projetos de nicho como Etched ou SambaNova. Esses aceleradores especializados são valiosos até mesmo como um meio de reduzir a dependência da Nvidia — que representa uma ameaça muito grande no mercado de TI atual, que se tornou fortemente voltado para a IA.Muita coisa se tornou interdependente. Mas quanto mais complexos se tornam os modelos generativos, mais importante se torna a versatilidade do hardware usado para executá-los (tanto durante o treinamento quanto durante o processamento em tempo real). Nessa área, competir com as empresas “preto-verde”, que passaram décadas desenvolvendo suas plataformas de hardware e software para computação paralela de alta densidade como uma unidade única, é incrivelmente difícil.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Razer lançou seu teclado principal, o Huntsman Signature Edition, em uma caixa de alumínio por US$ 500.

A Razer revelou seu teclado gamer topo de linha, o Huntsman Signature Edition. Com preço…

2 horas atrás

A Sony vai fechar o estúdio responsável pelos remakes de Demon’s Souls e Shadow of the Colossus, impedindo-os de lançar qualquer jogo.

A Bluepoint Games, criadora dos remakes de Shadow of the Colossus e Demon's Souls, em…

2 horas atrás

A Microsoft iniciou os testes do Windows 11 27H2 e um novo canal foi criado no Windows Insider para esse fim.

Os participantes do programa Windows Insider já podem começar a testar versões preliminares do Windows…

2 horas atrás

O Google tornou o Chrome mais fácil de usar, adicionando a funcionalidade de tela dividida e notas em PDF.

O Google anunciou três novos recursos de produtividade para a versão desktop do seu navegador…

3 horas atrás

Em 2025, o Google bloqueou milhares de desenvolvedores e removeu milhões de aplicativos questionáveis.

No ano passado, o Google bloqueou mais de 1,75 milhão de aplicativos que violavam suas…

3 horas atrás

A Intel implementou IA no suporte técnico, mas ela fornece conselhos estúpidos e perigosos.

A Intel implementou um assistente digital com inteligência artificial em seu site de suporte técnico,…

3 horas atrás