Aceleradora chinesa Birentech BR100 pronta para desafiar NVIDIA A100

Como você sabe, a China foi a primeira no mundo a colocar em operação com sucesso supercomputadores em exascale, mas um sistema HPC moderno é quase impensável sem aceleradores. No entanto, os desenvolvedores chineses também prepararam um avanço aqui: na conferência Hot Chips 34, a Birentech falou sobre o chip BR100, uma solução que pode desafiar tanto a AMD quanto a NVIDIA.

A novidade é baseada na arquitetura de projeto próprio, codinome Bi Liren. Este é o primeiro acelerador de uso geral chinês que usa um layout de chiplet e suporta PCI Express 5.0/CXL. Os novos aceleradores virão com suporte completo de software, de drivers e bibliotecas a estruturas populares como TensorFlow e PyTorch.

Fonte: WCCFTech

A complexidade do BR100 inspira respeito: o novo chip consiste em 77 bilhões de transistores, dispostos juntos usando uma tecnologia de processo de 7 nm e tecnologia TSMC 2.5D CoWoS. A área do chip é de 1074 mm2, porém, não está muito claro se estamos falando exclusivamente de um cristal, o chamado. “computar telha”, ou sobre a montagem como um todo, já que o BR100 inclui 64 GB de memória HBM2e.

Fonte: WCCFTech

Entre os recursos, podemos notar a presença de um cache rápido de 300 MB (256 MB L2) – para comparação, o NVIDIA A100 possui apenas 40 MB, e mesmo o mais recente H100 aumentou apenas para 50 MB. Quanto à largura de banda da memória, é de 1,64 TB/s.

Fonte: WCCFTech

O layout modular do BR100 inclui dois blocos de computação e quatro montagens HBM2e. Os cristais são interligados por uma interconexão com largura de banda de 896 GB/s e, para maior dimensionamento, o novo acelerador inclui uma interconexão proprietária BLink (8 linhas) com taxa de transferência de 2,3 TB/s.

Fonte: WCCFTech

Cada um dos dois cristais carrega 16 clusters de computação de fluxo (SPC), e cada um desses clusters, por sua vez, contém 16 unidades de execução (EU). Cada EU contém 16 V-Core e um T-Core, para um total de 8192 Classic Cores e 512 Tensor Cores no BR100. Cada SPC possui seu próprio cache L2 de 8 MB, totalizando 256 MB para todo o conjunto BR100.

Fonte: WCCFTech

O núcleo V-Core possui uma arquitetura SIMT (Single Instructions, Multiple Thread) e suporta cálculos nos formatos INT16/32, FP16 e FP32. Os núcleos tensores T-Core são projetados para executar operações como MMA, convolução e outras que são típicas para tarefas modernas de aprendizado de máquina. O número máximo de threads para o BR100 no modo superescalar é 128 mil.

Fonte: WCCFTech

A empresa desenvolvedora fornece alguns números de desempenho para o BR100: são 256 teraflops no modo FP32, o dobro no modo TF32 +, 1024 teraflops no formato BF16 e até 2048 tops no modo INT8. Esta é uma afirmação séria: com tais indicadores, o BR100 deve estar à frente do NVIDIA A100. A superioridade é reivindicada de 2,5x a 2,8x, dependendo da tarefa e do cenário.

Fonte: WCCFTech

Curiosamente, o BR100 é ligeiramente inferior ao NVIDIA H100 em termos de número de transistores (77 versus 80 bilhões), mas, claro, o uso de uma tecnologia de processo de 7 nm mais grosseira em comparação com o N4 no último desenvolvimento da NVIDIA significa mais dissipação de calor. Este parâmetro para o BR100 é de 550 W, enquanto a versão PCIe do H100 se encaixa no padrão de 350 W.

Fonte: WCCFTech

Essa não é a única novidade: a Birentech também tem um chip BR104 menos potente em seu arsenal. É duas vezes mais lento que o modelo mais antigo em todos os aspectos e carrega 32 GB de memória versus 64, mas ao contrário do BR100, ele usa um design monolítico em vez de chiplet. Com base nele, serão lançados aceleradores no formato PCIe com um TDP em torno de 300 W, enquanto a versão mais antiga estará disponível apenas como módulo OAM.

avalanche

Postagens recentes

A Samsung alertou que a escassez de memória RAM pode piorar ainda mais em 2027.

A Samsung está confiante de que a grave escassez de memória causada pela demanda dos…

34 minutos atrás

O lançamento do telescópio Roman da NASA não interromperá as operações do Hubble; elas continuarão e até mesmo serão expandidas.

À medida que o Telescópio Espacial Hubble entra em sua quarta década de operação, ele…

34 minutos atrás

O boom da inteligência artificial transformou os chips de memória em um dos produtos mais lucrativos do mundo.

No segundo semestre do ano passado, uma onda global de investimentos em IA tornou a…

34 minutos atrás

Consoles portáteis retrofuturistas inspirados nos lendários Commodore 64 e ZX Spectrum foram revelados.

A Blaze Entertainment anunciou dois novos consoles portáteis, projetados para reimaginar os icônicos computadores pessoais…

1 hora atrás

O Microsoft PowerToys atualizado agora gerencia monitores e aprimora o gerenciamento de janelas.

Entusiastas de computadores frequentemente acusam a Microsoft de degradar os recursos de personalização do sistema…

1 hora atrás

“Vocês continuam a surpreender, capitães!”: O sucesso pirata Windrose atinge novo pico de vendas e recebe atualização com melhorias técnicas.

Os desenvolvedores do estúdio uzbeque Kraken Express anunciaram o lançamento de um novo patch e…

1 hora atrás