Tenstorrent apresentou seus primeiros aceleradores Grayskull AI baseados em RISC-V

O desenvolvedor canadense de chips Tenstorrent, liderado pelo lendário Jim Keller, finalmente apresentou suas primeiras soluções baseadas na arquitetura RISC-V – processadores Grayskull AI e aceleradores baseados neles, Grayskull e75 e e150. Ambos os conjuntos estão disponíveis para compra agora ao preço de US$ 599 para a versão mais jovem e US$ 799 para a mais antiga. Essas soluções são destinadas a sistemas de inferência, desenvolvimento de software e depuração.

O kit de desenvolvimento inclui ferramentas TT-Buda e TT-Metalium. No primeiro caso, estamos falando de uma pilha de alto nível projetada para compilar e executar modelos de IA no hardware Tenstorrent e, no segundo, estamos falando de uma plataforma de software de baixo nível que fornece acesso direto aos recursos de hardware. PyTorch, ONNX e outras estruturas são suportadas. Os criadores dão ênfase especial à facilidade de programação em comparação com GPUs clássicas. Uma ampla gama de modelos de IA é suportada, mas o Tenstorrent destaca especialmente BERT, ResNet, Whisper, YOLOv5 e U-Net.

Fonte das imagens aqui e abaixo: Tenstorrent

A arquitetura Grayskull é baseada em RISC-V, atualmente o número máximo de núcleos Tensix proprietários chega a 120, eles operam em frequências de até 1,2 GHz. Cada um desses núcleos contém cinco núcleos RISC-V completos, uma unidade de operações de tensor, uma unidade SIMD para operações vetoriais, bem como operações de rede e aceleradores de compressão/descompressão de dados. Além disso, cada núcleo pode ter até 1,5 MB de SRAM ultrarrápida. Os núcleos se comunicam diretamente entre si.

No caso do Grayskull e150, o processador opera em configuração completa com 120 núcleos e 120 MB de SRAM, a quantidade de memória externa LPDDR4 é de 8 GB (largura de banda de memória de 118,4 GB/s). O acelerador é feito no formato de uma placa de expansão full size com pacote térmico de 200 W e interface PCIe 4.0 x16. O modelo mais novo, Grayskull e75, possui apenas 96 núcleos ativos, sua frequência é reduzida para 1 GHz e a largura de banda da memória externa com o mesmo volume é reduzida para 102,4 GB/s. Ao mesmo tempo, o pacote térmico é de apenas 75 W, o que possibilitou projetar o acelerador como uma placa de expansão discreta e dispensar energia adicional.

Os chips de buraco de minhoca também usam Tensix. O Wormhole n300 contém 128 desses núcleos, a frequência é de 1 GHz com um pacote térmico de 300 W. A capacidade SRAM é de 1,5 MB por núcleo e o subsistema de memória externa inclui 12 GB GDDR6 e largura de banda de 288 GB/s. Wormhole n150 tem a mesma configuração de memória, mas está equipado com apenas 72 núcleos Tensix e 108 MB de SRAM. O TDP é de 160 W. Essas soluções diferem do Grayskull na capacidade de escalar combinando placas diretamente. Há também um par de interfaces de rede de 200 GbE. É possível trabalhar com os formatos FP8/16/32, TF32, BFP2/4/8, INT8/16/32 e UINT8.

Os chips Tenstorrent Grayskull e Wormhole são a base de plataformas escaláveis ​​​​proprietárias exclusivas – AICloud e Galaxy. No primeiro caso, são utilizados processadores Grayskull, já que o Wormhole deverá aparecer no mercado posteriormente. A plataforma foi projetada como hardware para cargas de trabalho de IA e HPC na nuvem Tenstorrent.

Cada nó AICloud 4U contém oito cartões (16 chips) e é capaz de fornecer aos usuários de 30 a 60 vCPUs e de 256 a 1.024 GB de memória, juntamente com 100 a 400 GB de espaço em disco. Oito desses nós constituem um rack e quatro racks constituem um cluster de Server Pod. Quatro desses clusters estão unidos por um sistema comum de interconexão, gerenciamento e armazenamento (até 200 TB), e o dimensionamento adicional já está atingindo o nível do data center.

O Tenstorrent Galaxy concentra-se na capacidade de criar sistemas de IA de alto desempenho com interconexão rápida baseada em Ethernet. O alicerce aqui são os módulos Wormhole de 80 núcleos. O servidor 4U acomoda 32 desses módulos, que juntos fornecem 2.560 núcleos Tensix e 384 GB de GDDR6 endereçável globalmente. A presença de 16 canais de 200 GbE em cada módulo garante desempenho de interconexão no nível de 3,2 Tbits.

No nível do rack 48U, isso dá 256 chips Wormhole, a quantidade total de SRAM neste caso chega a 30,7 GB e GDDR6 – 3 TB. O desempenho do rack é estimado pelos desenvolvedores em 20,0 Pops, e a velocidade total de interconexão em 76,8 Tbit/s. O preço a pagar pela versatilidade e desempenho é o consumo de energia que chega a 60 kW.

avalanche

Postagens recentes

Os desenvolvedores de Ghostrunner adorariam trabalhar em Ghostrunner 3, mas há um porém.

Em vez de um possível Ghostrunner 3, os desenvolvedores do estúdio polonês One More Level…

39 minutos atrás

Os japoneses pretendem converter os motores de combustão interna para hidrogênio, em vez de usar células de combustível.

As células de hidrogênio tradicionais exigem o uso de usinas de energia caras que geram…

1 hora atrás

“Senti que estava desmoronando”: Os desenvolvedores principais de Suicide Squad: Kill the Justice League quase abandonaram a indústria após o fracasso do jogo.

O fracasso do jogo de ação cooperativo da Rocksteady Studios, Suicide Squad: Kill the Justice…

3 horas atrás

OxygenOS e Realme UI serão relegados ao passado – OnePlus e Realme migrarão para o ColorOS.

O OxygenOS e a Realme UI não serão mais usados ​​nos novos modelos de smartphones…

3 horas atrás