Aceleradora chinesa Birentech BR100 pronta para desafiar NVIDIA A100

Como você sabe, a China foi a primeira no mundo a colocar em operação com sucesso supercomputadores em exascale, mas um sistema HPC moderno é quase impensável sem aceleradores. No entanto, os desenvolvedores chineses também prepararam um avanço aqui: na conferência Hot Chips 34, a Birentech falou sobre o chip BR100, uma solução que pode desafiar tanto a AMD quanto a NVIDIA.

A novidade é baseada na arquitetura de projeto próprio, codinome Bi Liren. Este é o primeiro acelerador de uso geral chinês que usa um layout de chiplet e suporta PCI Express 5.0/CXL. Os novos aceleradores virão com suporte completo de software, de drivers e bibliotecas a estruturas populares como TensorFlow e PyTorch.

Fonte: WCCFTech

A complexidade do BR100 inspira respeito: o novo chip consiste em 77 bilhões de transistores, dispostos juntos usando uma tecnologia de processo de 7 nm e tecnologia TSMC 2.5D CoWoS. A área do chip é de 1074 mm2, porém, não está muito claro se estamos falando exclusivamente de um cristal, o chamado. “computar telha”, ou sobre a montagem como um todo, já que o BR100 inclui 64 GB de memória HBM2e.

Fonte: WCCFTech

Entre os recursos, podemos notar a presença de um cache rápido de 300 MB (256 MB L2) – para comparação, o NVIDIA A100 possui apenas 40 MB, e mesmo o mais recente H100 aumentou apenas para 50 MB. Quanto à largura de banda da memória, é de 1,64 TB/s.

Fonte: WCCFTech

O layout modular do BR100 inclui dois blocos de computação e quatro montagens HBM2e. Os cristais são interligados por uma interconexão com largura de banda de 896 GB/s e, para maior dimensionamento, o novo acelerador inclui uma interconexão proprietária BLink (8 linhas) com taxa de transferência de 2,3 TB/s.

Fonte: WCCFTech

Cada um dos dois cristais carrega 16 clusters de computação de fluxo (SPC), e cada um desses clusters, por sua vez, contém 16 unidades de execução (EU). Cada EU contém 16 V-Core e um T-Core, para um total de 8192 Classic Cores e 512 Tensor Cores no BR100. Cada SPC possui seu próprio cache L2 de 8 MB, totalizando 256 MB para todo o conjunto BR100.

Fonte: WCCFTech

O núcleo V-Core possui uma arquitetura SIMT (Single Instructions, Multiple Thread) e suporta cálculos nos formatos INT16/32, FP16 e FP32. Os núcleos tensores T-Core são projetados para executar operações como MMA, convolução e outras que são típicas para tarefas modernas de aprendizado de máquina. O número máximo de threads para o BR100 no modo superescalar é 128 mil.

Fonte: WCCFTech

A empresa desenvolvedora fornece alguns números de desempenho para o BR100: são 256 teraflops no modo FP32, o dobro no modo TF32 +, 1024 teraflops no formato BF16 e até 2048 tops no modo INT8. Esta é uma afirmação séria: com tais indicadores, o BR100 deve estar à frente do NVIDIA A100. A superioridade é reivindicada de 2,5x a 2,8x, dependendo da tarefa e do cenário.

Fonte: WCCFTech

Curiosamente, o BR100 é ligeiramente inferior ao NVIDIA H100 em termos de número de transistores (77 versus 80 bilhões), mas, claro, o uso de uma tecnologia de processo de 7 nm mais grosseira em comparação com o N4 no último desenvolvimento da NVIDIA significa mais dissipação de calor. Este parâmetro para o BR100 é de 550 W, enquanto a versão PCIe do H100 se encaixa no padrão de 350 W.

Fonte: WCCFTech

Essa não é a única novidade: a Birentech também tem um chip BR104 menos potente em seu arsenal. É duas vezes mais lento que o modelo mais antigo em todos os aspectos e carrega 32 GB de memória versus 64, mas ao contrário do BR100, ele usa um design monolítico em vez de chiplet. Com base nele, serão lançados aceleradores no formato PCIe com um TDP em torno de 300 W, enquanto a versão mais antiga estará disponível apenas como módulo OAM.

avalanche

Postagens recentes

NASA convida a todos para ajudar na busca de exoplanetas: se você não tem seu próprio telescópio, basta um smartphone

A NASA anunciou o acesso gratuito para todos ao programa Exoplanet Watch (“Observação de exoplanetas”).…

1 semana atrás

Fabricante de carros elétricos Rivian perde vários executivos seniores

No início de janeiro, soube-se que a jovem montadora americana Rivian produziu 24.337 veículos elétricos…

1 semana atrás