Categorias: Mercado de tecnologia e TI. notícia

Aceleradora chinesa Birentech BR100 pronta para desafiar NVIDIA A100

Como você sabe, a China foi a primeira no mundo a colocar em operação com sucesso supercomputadores em exascale, mas um sistema HPC moderno é quase impensável sem aceleradores. No entanto, os desenvolvedores chineses também prepararam um avanço aqui: na conferência Hot Chips 34, a Birentech falou sobre o chip BR100, uma solução que pode desafiar tanto a AMD quanto a NVIDIA.

A novidade é baseada na arquitetura de projeto próprio, codinome Bi Liren. Este é o primeiro acelerador de uso geral chinês que usa um layout de chiplet e suporta PCI Express 5.0/CXL. Os novos aceleradores virão com suporte completo de software, de drivers e bibliotecas a estruturas populares como TensorFlow e PyTorch.

Fonte: WCCFTech

A complexidade do BR100 inspira respeito: o novo chip consiste em 77 bilhões de transistores, dispostos juntos usando uma tecnologia de processo de 7 nm e tecnologia TSMC 2.5D CoWoS. A área do chip é de 1074 mm2, porém, não está muito claro se estamos falando exclusivamente de um cristal, o chamado. “computar telha”, ou sobre a montagem como um todo, já que o BR100 inclui 64 GB de memória HBM2e.

Fonte: WCCFTech

Entre os recursos, podemos notar a presença de um cache rápido de 300 MB (256 MB L2) – para comparação, o NVIDIA A100 possui apenas 40 MB, e mesmo o mais recente H100 aumentou apenas para 50 MB. Quanto à largura de banda da memória, é de 1,64 TB/s.

Fonte: WCCFTech

O layout modular do BR100 inclui dois blocos de computação e quatro montagens HBM2e. Os cristais são interligados por uma interconexão com largura de banda de 896 GB/s e, para maior dimensionamento, o novo acelerador inclui uma interconexão proprietária BLink (8 linhas) com taxa de transferência de 2,3 TB/s.

Fonte: WCCFTech

Cada um dos dois cristais carrega 16 clusters de computação de fluxo (SPC), e cada um desses clusters, por sua vez, contém 16 unidades de execução (EU). Cada EU contém 16 V-Core e um T-Core, para um total de 8192 Classic Cores e 512 Tensor Cores no BR100. Cada SPC possui seu próprio cache L2 de 8 MB, totalizando 256 MB para todo o conjunto BR100.

Fonte: WCCFTech

O núcleo V-Core possui uma arquitetura SIMT (Single Instructions, Multiple Thread) e suporta cálculos nos formatos INT16/32, FP16 e FP32. Os núcleos tensores T-Core são projetados para executar operações como MMA, convolução e outras que são típicas para tarefas modernas de aprendizado de máquina. O número máximo de threads para o BR100 no modo superescalar é 128 mil.

Fonte: WCCFTech

A empresa desenvolvedora fornece alguns números de desempenho para o BR100: são 256 teraflops no modo FP32, o dobro no modo TF32 +, 1024 teraflops no formato BF16 e até 2048 tops no modo INT8. Esta é uma afirmação séria: com tais indicadores, o BR100 deve estar à frente do NVIDIA A100. A superioridade é reivindicada de 2,5x a 2,8x, dependendo da tarefa e do cenário.

Fonte: WCCFTech

Curiosamente, o BR100 é ligeiramente inferior ao NVIDIA H100 em termos de número de transistores (77 versus 80 bilhões), mas, claro, o uso de uma tecnologia de processo de 7 nm mais grosseira em comparação com o N4 no último desenvolvimento da NVIDIA significa mais dissipação de calor. Este parâmetro para o BR100 é de 550 W, enquanto a versão PCIe do H100 se encaixa no padrão de 350 W.

Fonte: WCCFTech

Essa não é a única novidade: a Birentech também tem um chip BR104 menos potente em seu arsenal. É duas vezes mais lento que o modelo mais antigo em todos os aspectos e carrega 32 GB de memória versus 64, mas ao contrário do BR100, ele usa um design monolítico em vez de chiplet. Com base nele, serão lançados aceleradores no formato PCIe com um TDP em torno de 300 W, enquanto a versão mais antiga estará disponível apenas como módulo OAM.

avalanche

Próximo Os organizadores do Game Awards 2022 confirmaram a cerimônia em 8 de dezembro - estamos esperando por Diablo IV? »

Anterior « AMD fala sobre aceleradores de servidor multi-chip Instinct MI200 no CDNA 2

Deixar comentário

Publicado por

avalanche

4 anos atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Meta AI dispara para o 5º lugar na App Store após o lançamento do Muse Spark.

O aplicativo Meta✴AI subiu para o quinto lugar na App Store dos EUA após o…

31 minutos atrás

Notícias da rede

Hackers roubaram e divulgaram online arquivos confidenciais da polícia de Los Angeles.

Criminosos cibernéticos roubaram um grande conjunto de documentos internos confidenciais do Departamento de Polícia de…

31 minutos atrás

Sistemas operacionais

A Microsoft atribuiu o bloqueio do WireGuard e do VeraCrypt à própria falta de atenção dos desenvolvedores.

A Microsoft bloqueou as contas dos desenvolvedores do WireGuard e do VeraCrypt no âmbito do…

31 minutos atrás

Notícias da rede

O YouTube negou a existência de anúncios de 90 segundos que não podiam ser pulados, mas isso só gerou mais dúvidas.

O YouTube negou oficialmente o uso de anúncios de 90 segundos que não podem ser…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Google Chrome agora oferece proteção contra roubo de sessão de autenticação.

O Google implementou as Credenciais de Sessão Vinculadas ao Dispositivo (DBSC) no Chrome 146 para…

2 horas atrás

Periféricos de áudio / vídeo, fones de ouvido, webcams

Inteligência Artificial Analógica: Agora Baseada em Capacitores / Offsyanka

Em meados de 2025, a EnCharge AI, uma startup fundada por Naveen Verma, professor da…

7 horas atrás

Aceleradora chinesa Birentech BR100 pronta para desafiar NVIDIA A100

Conteúdo relacionado

Postagens recentes

A Meta AI dispara para o 5º lugar na App Store após o lançamento do Muse Spark.

Hackers roubaram e divulgaram online arquivos confidenciais da polícia de Los Angeles.

A Microsoft atribuiu o bloqueio do WireGuard e do VeraCrypt à própria falta de atenção dos desenvolvedores.

O YouTube negou a existência de anúncios de 90 segundos que não podiam ser pulados, mas isso só gerou mais dúvidas.

O Google Chrome agora oferece proteção contra roubo de sessão de autenticação.

Inteligência Artificial Analógica: Agora Baseada em Capacitores / Offsyanka