Este ano, o Centro Nacional de Supercomputação em Wuxi (China) lançou um poderoso supercomputador baseado nos avançados processadores Sunway SW26010-Pro de 384 núcleos do país. Comparado ao seu antecessor, o modelo Sunway SW26010 de 256 núcleos sem o prefixo “Pro”, seu desempenho aumentou até quatro vezes, relata o recurso Chips and Cheese.

Fonte da imagem: top500.org

O processador Sunway SW26010-Pro e os supercomputadores baseados nele tornaram-se conhecidos pela primeira vez em 2021, mas somente este ano, na conferência de computação de alto desempenho SC23, o desenvolvedor demonstrou publicamente este chip e falou sobre sua arquitetura. O desempenho máximo do FP64 de cada Sunway SW26010-Pro é de 13,8 teraflops – para comparação, o AMD EPYC 9654 de 96 núcleos demonstra cerca de 5,4 teraflops.

Sunway SW26010-Pro é baseado em uma arquitetura RISC proprietária completamente nova – inclui seis grupos principais (CG) e uma Unidade de Processamento de Protocolo (PPU). Cada cluster CG combina 64 núcleos de computação (Compute Processing Elements – CPE) com um mecanismo vetorial de 512 bits, 256 KB de cache de dados ultrarrápido e 16 KB de instruções; um núcleo de gerenciamento (Management Processing Element – MPE) – núcleo superescalar fora de ordem com mecanismo de vetor, cache L1 de 32 KB para dados e instruções, cache L2 de 512 KB; bem como uma interface de memória DDR4-3200 de 128 bits.

Fonte da imagem: chipsandcheese.com

MPE e CPE usam um protocolo baseado em diretório – ele fornece troca de dados consistente para reduzir a quantidade de dados transferidos entre núcleos e manter uma comunicação precisa entre eles. Isto é especialmente importante para aplicações com acesso pouco frequente a dados compartilhados. Cada processador de 6 clusters possui 384 núcleos de computação e 6 núcleos de controle – um total de 390 núcleos. Sunway SW26010-Pro difere de seu antecessor em maior velocidade operacional (2,25 GHz para CPE e 2,10 GHz para MPE versus 1,45 GHz para ambos no modelo anterior) e uma arquitetura RISC de 64 bits completamente redesenhada, que ajudou a aumentar o FP64 – a produtividade quadruplicou. O desenvolvedor aumentou a largura de banda da memória substituindo os controladores DDR3 por DDR4. Se a versão anterior do processador tinha 8 GB de DDR3 por cluster CPE, agora são 16 GB de DDR4 – respectivamente, a quantidade total de memória suportada pelo processador aumentou de 32 GB no SW26010 para 96 ​​GB no SW26010- Pró.

Ao mesmo tempo, como observa Tom’s Hardware, o ponto fraco de ambas as versões do processador é o cache e a RAM. No modelo SW26010-Pro eles tentaram resolver o problema de cache aumentando a quantidade de memória de ultra-alta velocidade de 64 para 256 KB, mas na ausência de L2 adequado isso ainda não é suficiente. Além disso, o subsistema de memória DDR4-3200 de canal duplo (51,2 GB/s) mal é suficiente para 64 núcleos, cada um dos quais possui uma FPU vetorial de 512 bits e oferece desempenho de até 16 FP64-flops por ciclo. O problema de cache pode ser parcialmente compensado pela otimização de software cara e trabalhosa, mas dada a largura de banda de RAM insuficiente, não está claro quão eficaz o processador atualizado será em última análise para as tarefas que os supercomputadores em exaescala são projetados para resolver.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *