A startup d-Matrix criou um acelerador Corsair AI otimizado para inferência rápida em lote de grandes modelos de linguagem (LLMs). A arquitetura do acelerador é baseada em células SRAM modificadas para computação em memória (DIMC), operando a velocidades de cerca de 150 TB/s. O novo produto, segundo a empresa, distingue-se pelo desempenho e eficiência energética, escreve o EE Times. A produção em massa da Corsair começará no segundo trimestre. Os investidores na d-Matrix incluem Microsoft, Nautilus Venture Partners, Entrada Ventures e SK hynix.

D-Matrix concentra-se na inferência de pacotes de baixa latência. No caso do Llama3-8B, o servidor d-Matrix (16 aceleradores de quatro chips compostos por oito placas) pode produzir 60 mil tokens/s com latência de 1 ms/token. Para o Llama3-70B, um rack d-Matrix (128 chips) pode produzir 30 mil tokens por segundo com uma latência de 2 ms/token. Os clientes da d-Matrix podem esperar atingir essas métricas para tamanhos de pacotes da ordem de 48-64 (dependendo do comprimento do contexto), disse Sree Ganesan, líder de produto da d-Matrix, ao EE Times.

Fonte da imagem: d-Matrix

O desempenho é otimizado para executar modelos com até 100 bilhões de parâmetros por rack. De acordo com Ganesan, este é um caso de uso realista para LLM. Nesses cenários, a solução d-Matrix oferece uma vantagem de 10x em interatividade (tempo para aquisição de token) em comparação com soluções baseadas em aceleradores tradicionais, como NVIDIA H100. A Corsair tem como alvo modelos com menos de 70 bilhões de parâmetros adequados para geração de código, geração de vídeo interativo ou IA de agente que exigem alta interatividade aliada a rendimento, eficiência energética e baixo custo.

As primeiras versões da arquitetura d-Matrix usavam blocos MAC baseados em células SRAM, complementados por um grande número de transistores para operações de multiplicação. A adição foi realizada na forma analógica usando linhas de bits, medição de corrente e conversão analógico-digital. Em 2020, a empresa lançou a plataforma de chips Nighthawk baseada nesta arquitetura. “[Nighthawk] demonstrou que podemos melhorar significativamente a precisão em relação às soluções analógicas tradicionais, mas ainda estamos alguns pontos percentuais atrás das soluções tradicionais do tipo GPU”, disse Sid Sheth, CEO da d-Matrix, ao EE Times.

No entanto, os potenciais clientes não gostaram da possível diminuição da precisão com esta abordagem, pelo que a Corsair foi forçada a optar por um somador totalmente digital. ASIC d-Matrix inclui quatro chips, cada um contendo quatro unidades de computação conectadas via DMX Link em um esquema each-to-each, e um agendador e núcleo RISC-V. Dentro de cada unidade de computação existem 16 núcleos DIMC compostos por conjuntos de células SRAM (64×64), além de dois núcleos SIMD e um mecanismo de conversão de dados. Um total de 1 GB de SRAM está disponível com uma taxa de transferência de 150 TB/s.

O ASIC é integrado com LPDDR5 de 128 GB (até 400 GB/s) por meio de um substrato orgânico (sem interpositor de silício caro). Embora a geração atual de ASICs inclua apenas quatro chips, precisamente devido a limitações de substrato, seu número aumentará no futuro. As interfaces ASIC externas são representadas pelo padrão PCIe 5.0 x16 (128 GB/s) e interconexão DMX Link proprietária (1 TB/s) para combinar chips.

A placa FHFL da Corsair inclui dois ASICs d-Matrix (oito chips no total) e possui um TDP de 600 W. O acelerador funciona com formatos de dados OCP MX (Microscaling Formats) e fornece até 2.400 Tflops em cálculos MXINT8 ou 9.600 Tflops no caso de MXINT4. Duas placas Corsair podem ser conectadas através de uma ponte DMX de 512 GB/s. Estes, segundo a empresa, são suficientes para permitir o paralelismo tensor. O escalonamento adicional é possível por meio da comutação PCIe. É por isso que d-Matrix funciona com GigaIO e Liqid. Você pode colocar oito placas Corsair em um chassi e 64 placas em um rack que consumirá cerca de 6 a 7 kW.

A d-Matrix já está desenvolvendo a próxima geração do Raptor ASIC, com lançamento previsto para 2026. O Raptor se concentrará em modelos “pensantes” e receberá ainda mais memória ao colocar DRAM diretamente em cima dos chips de computação. Os chips Raptor SRAM também passarão da tecnologia de processo de 6 nm da TSMC, usada para fabricar o Corsair, para 4 nm sem alterações significativas na microarquitetura. A empresa afirma que passou dois anos trabalhando com a TSMC para criar um sistema de empacotamento 3D para a próxima geração de ASICs.

Como observa o EETimes, a equipe de desenvolvimento de software d-Matrix tem o dobro do tamanho da equipe de desenvolvimento de hardware (120 contra 60). A estratégia de software da empresa é aproveitar ao máximo o ecossistema de código aberto, incluindo PyTorch, OpenAI Triton, MLIR, OpenBMC, etc. Juntos, eles formam a pilha de software Aviator, que é responsável por converter modelos em formatos numéricos d-Matrix, aplicar métodos proprietários de rarefação a eles, compilá-los, distribuir a carga entre cartões e servidores e gerenciar a execução do modelo, incluindo atender um grande número de consultas.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *