Todos os aceleradores gráficos modernos são oferecidos com um volume estritamente definido de memória de vídeo durante a produção e, nos modelos mais produtivos, a memória HBM geralmente é integrada no mesmo substrato que o cristal principal. No entanto, os requisitos de memória têm crescido mais rapidamente ultimamente, e os fornecedores estão solicitando cada vez mais memória adicional. Uma abordagem radicalmente diferente é oferecida pela Bolt Graphics, que anunciou recentemente a série de aceleradores Zeus.

Apesar da “pandemia de IA”, a Bolt Graphics não foca na IA em seu anúncio, chamando Zeus de a primeira GPU desenvolvida especificamente para HPC, renderização, ray tracing e até jogos de PC. O interessante é que o Zeus não é baseado em nenhuma arquitetura fechada: a parte escalar da nova GPU é construída com base na especificação RISC-V RVA23, a parte vetorial é representada pela ALU FP64 baseada em uma RVV 1.0 ligeiramente modificada. Outras funções são implementadas por meio de extensões personalizadas e blocos aceleradores separados. Todos eles compartilham um cache comum de 128 MB. A imagem é completada por um bloco de telemetria e uma interconexão interna para comunicação com outros blocos de computação.

Zeus 1c26-032 (Fonte da imagem: Bolt Graphics)

A abordagem usada é o chiplet. O bloco de construção básico do Zeus 1c26-032 inclui um chiplet de GPU que é pareado com 32 GB de memória LPDDR5x integrada (273 GB/s) e um controlador de memória DDR5 externo (90 GB/s), o que significa que, se desejar, você pode instalar outros 128 GB de RAM (dois módulos SO-DIMM). O chiplet GPU tem controladores DisplayPort 2.1a e HDMI 2.1b integrados e se comunica com o mundo externo por meio de um chiplet IO, ao qual é conectado por meio de um canal de 256 GB/s. O chiplet IO oferece um conjunto incomum de portas. Além de duas interfaces PCIe 5.0 x16 (64 GB/s cada), há uma porta RJ-45 dedicada para BMC e uma porta QSFP-DD de 400 GbE. Por fim, há uma unidade de codificação de vídeo de hardware capaz de lidar com fluxos duplos 8K@60 AV1/H.264/H.265.

O nível de desempenho declarado nos cálculos vetoriais FP64/FP32/FP16 é 5/10/20 Tflops, e na matriz INT16/INT8 – 307,2/614,4 Tflops. A unidade de rastreamento de caminho de hardware produz até 77 gigarays. Para efeito de comparação: a NVIDIA RTX 5090 é capaz de fornecer 32 gigarays, e o desempenho do FP64 é de 1,6 Tflops. Ao mesmo tempo, em cálculos de baixa precisão, as soluções atuais da NVIDIA ainda são mais rápidas que o Zeus 1c26-032. No entanto, o novo produto tem uma vantagem importante: seu nível de TDP é de apenas 120 W. A segunda interface PCIe 5.0 x16 pode ser usada para combinar duas placas diretamente.


A versão do acelerador com dois chiplets é chamada Zeus 2c26-064/128, e com quatro – 4c26-256. Os últimos números indicam o volume de memória LPDDR5X soldada. Quanto à memória expansível, o número de slots SO-DIMM disponíveis também depende do modelo e pode chegar a oito, portanto, na configuração principal, os 256 GB básicos de LPDDR5x podem ser complementados com até 2 TB de DDR5. O desempenho aumenta quase proporcionalmente ao número de chips de GPU, mas há algumas outras nuances. Assim, no Zeus 2c26-064 e no Zeus 2c26-128 (ambas as variantes têm um TDP de 250 W) há apenas um chiplet de E/S, e os chiplets de GPU são conectados por um barramento de 768 GB.


O Zeus 4c26-256 possui quatro chiplets de E/S em sua composição, que fornecem oito controladores PCIe 5.0 x4 (um chiplet, 32 linhas no total) e seis portas OSFP de 800 GbE (três chiplets). Os chips da GPU são conectados entre si por um barramento de 512 GB/s. Cada um deles é conectado ao seu próprio chiplet IO a uma velocidade de 256 GB/s. O pacote térmico do carro-chefe é de 500 watts, o acelerador, de acordo com a Bolt Graphnics, desenvolve 20 Tflops no modo FP64, quase 2500 Tflops em cálculos FP8 e é capaz de processar até 307 gigarays.


Os desenvolvedores claramente incluíram amplos recursos de cluster em sua ideia, como evidenciado pela presença de um poderoso subsistema de rede. São suportadas configurações tão pequenas quanto duas GPUs conectadas diretamente via Ethernet 400GbE, até grandes sistemas em nível de rack contendo 80 placas Zeus 4c26-256 conectadas a um switch e diretamente entre si. Esse cluster consome 44 kW, mas é capaz de executar grandes simulações físicas ou treinar modelos de IA devido a uma enorme variedade de memória compartilhada, totalizando 160 TB. O desempenho computacional de tal cluster atinge 1,6 Pflops no modo FP64 e 196 POPs no modo FP8.


Um dos novos recursos é o rastreador de raios Glowstick, que pode funcionar em tempo real em quase todos os pacotes modernos de modelagem 3D ou edição de vídeo, como Maya, 3ds Max, Blender, SketchUp, Houdini e Nuke. Ele será complementado pela biblioteca MaterialX proprietária da Bolt, que contém mais de 5.000 texturas de alta qualidade. E graças ao suporte ao padrão OpenUSD, ele pode ser facilmente integrado a qualquer cadeia de renderização e pós-processamento. Um simulador eletromagnético Bolt Apollo também está planejado. Drivers Vulkan/DirectX proprietários e SDK usando LLVM são prometidos.


O acesso antecipado aos kits de desenvolvedor da Bolt Graphics está previsto para o quarto trimestre deste ano. Espera-se que os servidores 2U baseados em Zeus apareçam no terceiro trimestre de 2026, com remessas em massa de servidores e placas PCIe previstas para começar no máximo no quarto trimestre do mesmo ano. É difícil dizer o quão bem a nova arquitetura funcionará, mas se os testes preliminares do Zeus forem levados em conta, os ganhos em relação aos aceleradores existentes são significativos, especialmente em termos de consumo de energia.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *