O desenvolvedor canadense de chips Tenstorrent, liderado pelo lendário Jim Keller, finalmente apresentou suas primeiras soluções baseadas na arquitetura RISC-V – processadores Grayskull AI e aceleradores baseados neles, Grayskull e75 e e150. Ambos os conjuntos estão disponíveis para compra agora ao preço de US$ 599 para a versão mais jovem e US$ 799 para a mais antiga. Essas soluções são destinadas a sistemas de inferência, desenvolvimento de software e depuração.
O kit de desenvolvimento inclui ferramentas TT-Buda e TT-Metalium. No primeiro caso, estamos falando de uma pilha de alto nível projetada para compilar e executar modelos de IA no hardware Tenstorrent e, no segundo, estamos falando de uma plataforma de software de baixo nível que fornece acesso direto aos recursos de hardware. PyTorch, ONNX e outras estruturas são suportadas. Os criadores dão ênfase especial à facilidade de programação em comparação com GPUs clássicas. Uma ampla gama de modelos de IA é suportada, mas o Tenstorrent destaca especialmente BERT, ResNet, Whisper, YOLOv5 e U-Net.
A arquitetura Grayskull é baseada em RISC-V, atualmente o número máximo de núcleos Tensix proprietários chega a 120, eles operam em frequências de até 1,2 GHz. Cada um desses núcleos contém cinco núcleos RISC-V completos, uma unidade de operações de tensor, uma unidade SIMD para operações vetoriais, bem como operações de rede e aceleradores de compressão/descompressão de dados. Além disso, cada núcleo pode ter até 1,5 MB de SRAM ultrarrápida. Os núcleos se comunicam diretamente entre si.
No caso do Grayskull e150, o processador opera em configuração completa com 120 núcleos e 120 MB de SRAM, a quantidade de memória externa LPDDR4 é de 8 GB (largura de banda de memória de 118,4 GB/s). O acelerador é feito no formato de uma placa de expansão full size com pacote térmico de 200 W e interface PCIe 4.0 x16. O modelo mais novo, Grayskull e75, possui apenas 96 núcleos ativos, sua frequência é reduzida para 1 GHz e a largura de banda da memória externa com o mesmo volume é reduzida para 102,4 GB/s. Ao mesmo tempo, o pacote térmico é de apenas 75 W, o que possibilitou projetar o acelerador como uma placa de expansão discreta e dispensar energia adicional.
Os chips de buraco de minhoca também usam Tensix. O Wormhole n300 contém 128 desses núcleos, a frequência é de 1 GHz com um pacote térmico de 300 W. A capacidade SRAM é de 1,5 MB por núcleo e o subsistema de memória externa inclui 12 GB GDDR6 e largura de banda de 288 GB/s. Wormhole n150 tem a mesma configuração de memória, mas está equipado com apenas 72 núcleos Tensix e 108 MB de SRAM. O TDP é de 160 W. Essas soluções diferem do Grayskull na capacidade de escalar combinando placas diretamente. Há também um par de interfaces de rede de 200 GbE. É possível trabalhar com os formatos FP8/16/32, TF32, BFP2/4/8, INT8/16/32 e UINT8.
Os chips Tenstorrent Grayskull e Wormhole são a base de plataformas escaláveis proprietárias exclusivas – AICloud e Galaxy. No primeiro caso, são utilizados processadores Grayskull, já que o Wormhole deverá aparecer no mercado posteriormente. A plataforma foi projetada como hardware para cargas de trabalho de IA e HPC na nuvem Tenstorrent.
Cada nó AICloud 4U contém oito cartões (16 chips) e é capaz de fornecer aos usuários de 30 a 60 vCPUs e de 256 a 1.024 GB de memória, juntamente com 100 a 400 GB de espaço em disco. Oito desses nós constituem um rack e quatro racks constituem um cluster de Server Pod. Quatro desses clusters estão unidos por um sistema comum de interconexão, gerenciamento e armazenamento (até 200 TB), e o dimensionamento adicional já está atingindo o nível do data center.
O Tenstorrent Galaxy concentra-se na capacidade de criar sistemas de IA de alto desempenho com interconexão rápida baseada em Ethernet. O alicerce aqui são os módulos Wormhole de 80 núcleos. O servidor 4U acomoda 32 desses módulos, que juntos fornecem 2.560 núcleos Tensix e 384 GB de GDDR6 endereçável globalmente. A presença de 16 canais de 200 GbE em cada módulo garante desempenho de interconexão no nível de 3,2 Tbits.
No nível do rack 48U, isso dá 256 chips Wormhole, a quantidade total de SRAM neste caso chega a 30,7 GB e GDDR6 – 3 TB. O desempenho do rack é estimado pelos desenvolvedores em 20,0 Pops, e a velocidade total de interconexão em 76,8 Tbit/s. O preço a pagar pela versatilidade e desempenho é o consumo de energia que chega a 60 kW.