A Nvidia divulgou informações detalhadas sobre o acelerador de IA Blackwell Ultra GB300. Ele difere de seu antecessor, o GB200, por ter um número maior de núcleos e memória, uma interface mais rápida e maior potência. O Nvidia GB300 é baseado em dois cristais com um total de 208 bilhões de transistores — eles são fabricados com a tecnologia TSMC 4NP e operam como um único processador gráfico (GPU) devido à interconexão NV-HBI com uma velocidade de 10 TB/s.
Fonte da imagem: nvidia.com
A GPU contém 160 Multiprocessadores de Streaming, cada um com 128 núcleos CUDA – um total de 20.480 núcleos, além de Tensor Cores de quinta geração com suporte para FP8, FP6 e o novo formato NVFP4. Cada Multiprocessador de Streaming possui 256 KB de Memória Tensor (TMEM) – um total de 40 MB. Unidades de hardware adicionais também são fornecidas para cálculos e operações transcendentais otimizados para núcleos de computação.
A memória é organizada em oito pilhas HBM3E de 12 camadas, com um volume total de 288 GB. A largura de banda da memória do Nvidia GB300 não mudou em comparação com o GB200 — é de 8 TB/s, sendo organizada em 16 canais de 512 bits (interface de 8192 bits). A capacidade de memória aumentada permite colocar todo o modelo de IA no chip, além de armazenar grandes volumes de cache de chaves e valores sem descarregar para recursos externos. O indicador TGP aumentou para 1400 W.
A interface NVLink 5, com uma taxa de transferência de dados bidirecional de 1,8 TB/s por GPU, é responsável pela comunicação entre as GPUs. A comunicação entre a GPU e o processador central Grace é implementada através da interface NVLink-C2C com uma velocidade de 900 GB/s e suporte para um único espaço de endereço. O barramento PCIe 6.0 x16 com uma largura de banda bidirecional de 256 GB/s é usado para conexão com o host – esta interface foi usada pela primeira vez pela Nvidia. Os aceleradores podem ser instalados em um rack GB300 NVL72 com 72 GPUs, até 20,7 TB de memória HBM3E e uma largura de banda HBM total de 576 TB/s. O rack também possui 72 núcleos Grace Superchip Arm e até 480 GB de LPDDR5X com uma largura de banda de 512 GB/s.
NVFP4 é um novo formato de dados de baixa precisão implementado em núcleos tensores. Ele oferece precisão comparável à do FP8, mas utiliza 1,8 vez menos memória. Os aceleradores Nvidia GB300 já entraram em produção em massa e os primeiros clientes já os receberam.
Enquanto alguns fãs estão recriando The Elder Scrolls III: Morrowind no motor Skyrim, outros estão…
O estúdio japonês Kojima Productions, fundado no final de 2015 pelo renomado designer de jogos…
A Apple deve lançar o primeiro iPhone com tela flexível, possivelmente chamado de iPhone Fold,…
Análise do modo ranqueado de Warface: fácil de pegar o jeito, difícil de largar
Embora o suporte de conteúdo para o RPG de ação cyberpunk em primeira pessoa Cyberpunk…
Parece difícil imaginar algo mais elementar do ponto de vista do usuário do que escolher…