SRAM, e apenas: d-Matrix está preparando um acelerador de IA para Corsair

A startup d-Matrix criou um acelerador Corsair AI otimizado para inferência rápida em lote de grandes modelos de linguagem (LLMs). A arquitetura do acelerador é baseada em células SRAM modificadas para computação em memória (DIMC), operando a velocidades de cerca de 150 TB/s. O novo produto, segundo a empresa, distingue-se pelo desempenho e eficiência energética, escreve o EE Times. A produção em massa da Corsair começará no segundo trimestre. Os investidores na d-Matrix incluem Microsoft, Nautilus Venture Partners, Entrada Ventures e SK hynix.

D-Matrix concentra-se na inferência de pacotes de baixa latência. No caso do Llama3-8B, o servidor d-Matrix (16 aceleradores de quatro chips compostos por oito placas) pode produzir 60 mil tokens/s com latência de 1 ms/token. Para o Llama3-70B, um rack d-Matrix (128 chips) pode produzir 30 mil tokens por segundo com uma latência de 2 ms/token. Os clientes da d-Matrix podem esperar atingir essas métricas para tamanhos de pacotes da ordem de 48-64 (dependendo do comprimento do contexto), disse Sree Ganesan, líder de produto da d-Matrix, ao EE Times.

Fonte da imagem: d-Matrix

O desempenho é otimizado para executar modelos com até 100 bilhões de parâmetros por rack. De acordo com Ganesan, este é um caso de uso realista para LLM. Nesses cenários, a solução d-Matrix oferece uma vantagem de 10x em interatividade (tempo para aquisição de token) em comparação com soluções baseadas em aceleradores tradicionais, como NVIDIA H100. A Corsair tem como alvo modelos com menos de 70 bilhões de parâmetros adequados para geração de código, geração de vídeo interativo ou IA de agente que exigem alta interatividade aliada a rendimento, eficiência energética e baixo custo.

As primeiras versões da arquitetura d-Matrix usavam blocos MAC baseados em células SRAM, complementados por um grande número de transistores para operações de multiplicação. A adição foi realizada na forma analógica usando linhas de bits, medição de corrente e conversão analógico-digital. Em 2020, a empresa lançou a plataforma de chips Nighthawk baseada nesta arquitetura. “[Nighthawk] demonstrou que podemos melhorar significativamente a precisão em relação às soluções analógicas tradicionais, mas ainda estamos alguns pontos percentuais atrás das soluções tradicionais do tipo GPU”, disse Sid Sheth, CEO da d-Matrix, ao EE Times.

No entanto, os potenciais clientes não gostaram da possível diminuição da precisão com esta abordagem, pelo que a Corsair foi forçada a optar por um somador totalmente digital. ASIC d-Matrix inclui quatro chips, cada um contendo quatro unidades de computação conectadas via DMX Link em um esquema each-to-each, e um agendador e núcleo RISC-V. Dentro de cada unidade de computação existem 16 núcleos DIMC compostos por conjuntos de células SRAM (64×64), além de dois núcleos SIMD e um mecanismo de conversão de dados. Um total de 1 GB de SRAM está disponível com uma taxa de transferência de 150 TB/s.

O ASIC é integrado com LPDDR5 de 128 GB (até 400 GB/s) por meio de um substrato orgânico (sem interpositor de silício caro). Embora a geração atual de ASICs inclua apenas quatro chips, precisamente devido a limitações de substrato, seu número aumentará no futuro. As interfaces ASIC externas são representadas pelo padrão PCIe 5.0 x16 (128 GB/s) e interconexão DMX Link proprietária (1 TB/s) para combinar chips.

A placa FHFL da Corsair inclui dois ASICs d-Matrix (oito chips no total) e possui um TDP de 600 W. O acelerador funciona com formatos de dados OCP MX (Microscaling Formats) e fornece até 2.400 Tflops em cálculos MXINT8 ou 9.600 Tflops no caso de MXINT4. Duas placas Corsair podem ser conectadas através de uma ponte DMX de 512 GB/s. Estes, segundo a empresa, são suficientes para permitir o paralelismo tensor. O escalonamento adicional é possível por meio da comutação PCIe. É por isso que d-Matrix funciona com GigaIO e Liqid. Você pode colocar oito placas Corsair em um chassi e 64 placas em um rack que consumirá cerca de 6 a 7 kW.

A d-Matrix já está desenvolvendo a próxima geração do Raptor ASIC, com lançamento previsto para 2026. O Raptor se concentrará em modelos “pensantes” e receberá ainda mais memória ao colocar DRAM diretamente em cima dos chips de computação. Os chips Raptor SRAM também passarão da tecnologia de processo de 6 nm da TSMC, usada para fabricar o Corsair, para 4 nm sem alterações significativas na microarquitetura. A empresa afirma que passou dois anos trabalhando com a TSMC para criar um sistema de empacotamento 3D para a próxima geração de ASICs.

Como observa o EETimes, a equipe de desenvolvimento de software d-Matrix tem o dobro do tamanho da equipe de desenvolvimento de hardware (120 contra 60). A estratégia de software da empresa é aproveitar ao máximo o ecossistema de código aberto, incluindo PyTorch, OpenAI Triton, MLIR, OpenBMC, etc. Juntos, eles formam a pilha de software Aviator, que é responsável por converter modelos em formatos numéricos d-Matrix, aplicar métodos proprietários de rarefação a eles, compilá-los, distribuir a carga entre cartões e servidores e gerenciar a execução do modelo, incluindo atender um grande número de consultas.

avalanche

Postagens recentes

Os mineradores de dados publicaram a primeira captura de tela e detalhes do novo Metro – Moscou sem Artyom, sem mundo aberto e anúncio em 2025

A comunidade “Around Builds Metro 2033|Last Light|Exodus”, que estuda a história e diversas compilações de…

1 hora atrás

Intel ganha mais dois clientes de defesa para produzir chips avançados

Desde 2021, o programa RAMP-C vem se desenvolvendo nos Estados Unidos, proporcionando a criação de…

1 hora atrás

Um modder do Nintendo Switch foi preso pela primeira vez no Japão, mas não por emulação, mas por jogos piratas

Um homem de 58 anos no Japão foi preso por vender Nintendo Switches modificados com…

7 horas atrás