Categorias: Mercado de tecnologia e TI. notícia

SRAM, e apenas: d-Matrix está preparando um acelerador de IA para Corsair

A startup d-Matrix criou um acelerador Corsair AI otimizado para inferência rápida em lote de grandes modelos de linguagem (LLMs). A arquitetura do acelerador é baseada em células SRAM modificadas para computação em memória (DIMC), operando a velocidades de cerca de 150 TB/s. O novo produto, segundo a empresa, distingue-se pelo desempenho e eficiência energética, escreve o EE Times. A produção em massa da Corsair começará no segundo trimestre. Os investidores na d-Matrix incluem Microsoft, Nautilus Venture Partners, Entrada Ventures e SK hynix.

D-Matrix concentra-se na inferência de pacotes de baixa latência. No caso do Llama3-8B, o servidor d-Matrix (16 aceleradores de quatro chips compostos por oito placas) pode produzir 60 mil tokens/s com latência de 1 ms/token. Para o Llama3-70B, um rack d-Matrix (128 chips) pode produzir 30 mil tokens por segundo com uma latência de 2 ms/token. Os clientes da d-Matrix podem esperar atingir essas métricas para tamanhos de pacotes da ordem de 48-64 (dependendo do comprimento do contexto), disse Sree Ganesan, líder de produto da d-Matrix, ao EE Times.

Fonte da imagem: d-Matrix

O desempenho é otimizado para executar modelos com até 100 bilhões de parâmetros por rack. De acordo com Ganesan, este é um caso de uso realista para LLM. Nesses cenários, a solução d-Matrix oferece uma vantagem de 10x em interatividade (tempo para aquisição de token) em comparação com soluções baseadas em aceleradores tradicionais, como NVIDIA H100. A Corsair tem como alvo modelos com menos de 70 bilhões de parâmetros adequados para geração de código, geração de vídeo interativo ou IA de agente que exigem alta interatividade aliada a rendimento, eficiência energética e baixo custo.

As primeiras versões da arquitetura d-Matrix usavam blocos MAC baseados em células SRAM, complementados por um grande número de transistores para operações de multiplicação. A adição foi realizada na forma analógica usando linhas de bits, medição de corrente e conversão analógico-digital. Em 2020, a empresa lançou a plataforma de chips Nighthawk baseada nesta arquitetura. “[Nighthawk] demonstrou que podemos melhorar significativamente a precisão em relação às soluções analógicas tradicionais, mas ainda estamos alguns pontos percentuais atrás das soluções tradicionais do tipo GPU”, disse Sid Sheth, CEO da d-Matrix, ao EE Times.

No entanto, os potenciais clientes não gostaram da possível diminuição da precisão com esta abordagem, pelo que a Corsair foi forçada a optar por um somador totalmente digital. ASIC d-Matrix inclui quatro chips, cada um contendo quatro unidades de computação conectadas via DMX Link em um esquema each-to-each, e um agendador e núcleo RISC-V. Dentro de cada unidade de computação existem 16 núcleos DIMC compostos por conjuntos de células SRAM (64×64), além de dois núcleos SIMD e um mecanismo de conversão de dados. Um total de 1 GB de SRAM está disponível com uma taxa de transferência de 150 TB/s.

O ASIC é integrado com LPDDR5 de 128 GB (até 400 GB/s) por meio de um substrato orgânico (sem interpositor de silício caro). Embora a geração atual de ASICs inclua apenas quatro chips, precisamente devido a limitações de substrato, seu número aumentará no futuro. As interfaces ASIC externas são representadas pelo padrão PCIe 5.0 x16 (128 GB/s) e interconexão DMX Link proprietária (1 TB/s) para combinar chips.

A placa FHFL da Corsair inclui dois ASICs d-Matrix (oito chips no total) e possui um TDP de 600 W. O acelerador funciona com formatos de dados OCP MX (Microscaling Formats) e fornece até 2.400 Tflops em cálculos MXINT8 ou 9.600 Tflops no caso de MXINT4. Duas placas Corsair podem ser conectadas através de uma ponte DMX de 512 GB/s. Estes, segundo a empresa, são suficientes para permitir o paralelismo tensor. O escalonamento adicional é possível por meio da comutação PCIe. É por isso que d-Matrix funciona com GigaIO e Liqid. Você pode colocar oito placas Corsair em um chassi e 64 placas em um rack que consumirá cerca de 6 a 7 kW.

A d-Matrix já está desenvolvendo a próxima geração do Raptor ASIC, com lançamento previsto para 2026. O Raptor se concentrará em modelos “pensantes” e receberá ainda mais memória ao colocar DRAM diretamente em cima dos chips de computação. Os chips Raptor SRAM também passarão da tecnologia de processo de 6 nm da TSMC, usada para fabricar o Corsair, para 4 nm sem alterações significativas na microarquitetura. A empresa afirma que passou dois anos trabalhando com a TSMC para criar um sistema de empacotamento 3D para a próxima geração de ASICs.

Como observa o EETimes, a equipe de desenvolvimento de software d-Matrix tem o dobro do tamanho da equipe de desenvolvimento de hardware (120 contra 60). A estratégia de software da empresa é aproveitar ao máximo o ecossistema de código aberto, incluindo PyTorch, OpenAI Triton, MLIR, OpenBMC, etc. Juntos, eles formam a pilha de software Aviator, que é responsável por converter modelos em formatos numéricos d-Matrix, aplicar métodos proprietários de rarefação a eles, compilá-los, distribuir a carga entre cartões e servidores e gerenciar a execução do modelo, incluindo atender um grande número de consultas.

avalanche

Próximo Os reguladores dos EUA estão cautelosos com o desejo da Microsoft, do Google e da Amazon de investir em startups de IA »

Anterior « Um modder do Nintendo Switch foi preso pela primeira vez no Japão, mas não por emulação, mas por jogos piratas

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Jogos

Um novo trailer revelou a data de lançamento de Zero Parades: For Dead Spies, o RPG de espionagem inspirado em Disco Elysium.

O estúdio londrino ZA/UM anunciou a data de lançamento de seu RPG de espionagem Zero…

38 minutos atrás

Casos, computadores desktop

As vendas de PCs nos EUA aumentaram 3% no final de 2025, mas cairão 13% este ano.

As remessas de PCs nos EUA no quarto trimestre de 2025 apresentaram um aumento de…

2 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

O Samsung Galaxy S26 com o chip Exynos 2600 falhou no teste de duração da bateria.

Na maioria dos mercados mundiais, os smartphones Samsung Galaxy S26 e S26+ vêm com o…

2 horas atrás

Processadores

Um entusiasta conseguiu “inicializar” um processador Intel Bartlett Lake em uma placa-mãe de consumo usando inteligência artificial para reescrever a BIOS.

No início deste mês, a Intel apresentou os processadores Bartlett Lake para aplicações industriais e…

2 horas atrás

Espaço

O motivo da evacuação de emergência do astronauta da ISS foi revelado: ele ficou literalmente sem palavras.

Em janeiro de 2026, o veterano astronauta da NASA, Mike Fincke, passou por uma experiência…

3 horas atrás

Jogos

Calendário de lançamentos: 30 de março a 5 de abril: Super Meat Boy 3D, Grime 2 e Darwin’s Paradox!

A semana entre março e abril foi inesperadamente agitada. Uma enxurrada de lançamentos em um…

3 horas atrás

SRAM, e apenas: d-Matrix está preparando um acelerador de IA para Corsair

Conteúdo relacionado

Postagens recentes

Um novo trailer revelou a data de lançamento de Zero Parades: For Dead Spies, o RPG de espionagem inspirado em Disco Elysium.

As vendas de PCs nos EUA aumentaram 3% no final de 2025, mas cairão 13% este ano.

O Samsung Galaxy S26 com o chip Exynos 2600 falhou no teste de duração da bateria.

Um entusiasta conseguiu “inicializar” um processador Intel Bartlett Lake em uma placa-mãe de consumo usando inteligência artificial para reescrever a BIOS.

O motivo da evacuação de emergência do astronauta da ISS foi revelado: ele ficou literalmente sem palavras.

Calendário de lançamentos: 30 de março a 5 de abril: Super Meat Boy 3D, Grime 2 e Darwin’s Paradox!