Aceleradora chinesa Birentech BR100 pronta para desafiar NVIDIA A100

Como você sabe, a China foi a primeira no mundo a colocar em operação com sucesso supercomputadores em exascale, mas um sistema HPC moderno é quase impensável sem aceleradores. No entanto, os desenvolvedores chineses também prepararam um avanço aqui: na conferência Hot Chips 34, a Birentech falou sobre o chip BR100, uma solução que pode desafiar tanto a AMD quanto a NVIDIA.

A novidade é baseada na arquitetura de projeto próprio, codinome Bi Liren. Este é o primeiro acelerador de uso geral chinês que usa um layout de chiplet e suporta PCI Express 5.0/CXL. Os novos aceleradores virão com suporte completo de software, de drivers e bibliotecas a estruturas populares como TensorFlow e PyTorch.

Fonte: WCCFTech

A complexidade do BR100 inspira respeito: o novo chip consiste em 77 bilhões de transistores, dispostos juntos usando uma tecnologia de processo de 7 nm e tecnologia TSMC 2.5D CoWoS. A área do chip é de 1074 mm2, porém, não está muito claro se estamos falando exclusivamente de um cristal, o chamado. “computar telha”, ou sobre a montagem como um todo, já que o BR100 inclui 64 GB de memória HBM2e.

Fonte: WCCFTech

Entre os recursos, podemos notar a presença de um cache rápido de 300 MB (256 MB L2) – para comparação, o NVIDIA A100 possui apenas 40 MB, e mesmo o mais recente H100 aumentou apenas para 50 MB. Quanto à largura de banda da memória, é de 1,64 TB/s.

Fonte: WCCFTech

O layout modular do BR100 inclui dois blocos de computação e quatro montagens HBM2e. Os cristais são interligados por uma interconexão com largura de banda de 896 GB/s e, para maior dimensionamento, o novo acelerador inclui uma interconexão proprietária BLink (8 linhas) com taxa de transferência de 2,3 TB/s.

Fonte: WCCFTech

Cada um dos dois cristais carrega 16 clusters de computação de fluxo (SPC), e cada um desses clusters, por sua vez, contém 16 unidades de execução (EU). Cada EU contém 16 V-Core e um T-Core, para um total de 8192 Classic Cores e 512 Tensor Cores no BR100. Cada SPC possui seu próprio cache L2 de 8 MB, totalizando 256 MB para todo o conjunto BR100.

Fonte: WCCFTech

O núcleo V-Core possui uma arquitetura SIMT (Single Instructions, Multiple Thread) e suporta cálculos nos formatos INT16/32, FP16 e FP32. Os núcleos tensores T-Core são projetados para executar operações como MMA, convolução e outras que são típicas para tarefas modernas de aprendizado de máquina. O número máximo de threads para o BR100 no modo superescalar é 128 mil.

Fonte: WCCFTech

A empresa desenvolvedora fornece alguns números de desempenho para o BR100: são 256 teraflops no modo FP32, o dobro no modo TF32 +, 1024 teraflops no formato BF16 e até 2048 tops no modo INT8. Esta é uma afirmação séria: com tais indicadores, o BR100 deve estar à frente do NVIDIA A100. A superioridade é reivindicada de 2,5x a 2,8x, dependendo da tarefa e do cenário.

Fonte: WCCFTech

Curiosamente, o BR100 é ligeiramente inferior ao NVIDIA H100 em termos de número de transistores (77 versus 80 bilhões), mas, claro, o uso de uma tecnologia de processo de 7 nm mais grosseira em comparação com o N4 no último desenvolvimento da NVIDIA significa mais dissipação de calor. Este parâmetro para o BR100 é de 550 W, enquanto a versão PCIe do H100 se encaixa no padrão de 350 W.

Fonte: WCCFTech

Essa não é a única novidade: a Birentech também tem um chip BR104 menos potente em seu arsenal. É duas vezes mais lento que o modelo mais antigo em todos os aspectos e carrega 32 GB de memória versus 64, mas ao contrário do BR100, ele usa um design monolítico em vez de chiplet. Com base nele, serão lançados aceleradores no formato PCIe com um TDP em torno de 300 W, enquanto a versão mais antiga estará disponível apenas como módulo OAM.

avalanche

Postagens recentes

O Windows 11 está apresentando falhas novamente, e alguns usuários estão enfrentando o desaparecimento da área de trabalho.

Foi descoberto um bug no Windows 11 que está causando mau funcionamento de elementos importantes…

14 minutos atrás

A Europa acelerou sua rejeição aos serviços digitais e softwares americanos.

Em toda a Europa, governos e instituições estão buscando reduzir o uso de serviços digitais…

50 minutos atrás

Lisa Su prometeu um crescimento explosivo da receita: servidores e IA trarão dezenas de bilhões para a AMD.

Uma análise mais aprofundada das declarações da CEO da AMD, Lisa Su, no evento trimestral,…

1 hora atrás

A Take-Two está implementando ativamente IA generativa em seus fluxos de trabalho, mas não em GTA VI – é um jogo feito à mão.

Strauss Zelnick, CEO da Take-Two Interactive, falou com o GamesIndustry.biz sobre a integração da IA…

2 horas atrás

A OpenAI nomeou um Diretor de Preparação para supervisionar o desenvolvimento de IA segura.

A segurança da inteligência artificial é um tema extremamente sensível nos dias de hoje. Os…

2 horas atrás