Este ano, o Centro Nacional de Supercomputação em Wuxi (China) lançou um poderoso supercomputador baseado nos avançados processadores Sunway SW26010-Pro de 384 núcleos do país. Comparado ao seu antecessor, o modelo Sunway SW26010 de 256 núcleos sem o prefixo “Pro”, seu desempenho aumentou até quatro vezes, relata o recurso Chips and Cheese.
Fonte da imagem: top500.org
O processador Sunway SW26010-Pro e os supercomputadores baseados nele tornaram-se conhecidos pela primeira vez em 2021, mas somente este ano, na conferência de computação de alto desempenho SC23, o desenvolvedor demonstrou publicamente este chip e falou sobre sua arquitetura. O desempenho máximo do FP64 de cada Sunway SW26010-Pro é de 13,8 teraflops – para comparação, o AMD EPYC 9654 de 96 núcleos demonstra cerca de 5,4 teraflops.
Sunway SW26010-Pro é baseado em uma arquitetura RISC proprietária completamente nova – inclui seis grupos principais (CG) e uma Unidade de Processamento de Protocolo (PPU). Cada cluster CG combina 64 núcleos de computação (Compute Processing Elements – CPE) com um mecanismo vetorial de 512 bits, 256 KB de cache de dados ultrarrápido e 16 KB de instruções; um núcleo de gerenciamento (Management Processing Element – MPE) – núcleo superescalar fora de ordem com mecanismo de vetor, cache L1 de 32 KB para dados e instruções, cache L2 de 512 KB; bem como uma interface de memória DDR4-3200 de 128 bits.
Fonte da imagem: chipsandcheese.com
MPE e CPE usam um protocolo baseado em diretório – ele fornece troca de dados consistente para reduzir a quantidade de dados transferidos entre núcleos e manter uma comunicação precisa entre eles. Isto é especialmente importante para aplicações com acesso pouco frequente a dados compartilhados. Cada processador de 6 clusters possui 384 núcleos de computação e 6 núcleos de controle – um total de 390 núcleos. Sunway SW26010-Pro difere de seu antecessor em maior velocidade operacional (2,25 GHz para CPE e 2,10 GHz para MPE versus 1,45 GHz para ambos no modelo anterior) e uma arquitetura RISC de 64 bits completamente redesenhada, que ajudou a aumentar o FP64 – a produtividade quadruplicou. O desenvolvedor aumentou a largura de banda da memória substituindo os controladores DDR3 por DDR4. Se a versão anterior do processador tinha 8 GB de DDR3 por cluster CPE, agora são 16 GB de DDR4 – respectivamente, a quantidade total de memória suportada pelo processador aumentou de 32 GB no SW26010 para 96 GB no SW26010- Pró.
Ao mesmo tempo, como observa Tom’s Hardware, o ponto fraco de ambas as versões do processador é o cache e a RAM. No modelo SW26010-Pro eles tentaram resolver o problema de cache aumentando a quantidade de memória de ultra-alta velocidade de 64 para 256 KB, mas na ausência de L2 adequado isso ainda não é suficiente. Além disso, o subsistema de memória DDR4-3200 de canal duplo (51,2 GB/s) mal é suficiente para 64 núcleos, cada um dos quais possui uma FPU vetorial de 512 bits e oferece desempenho de até 16 FP64-flops por ciclo. O problema de cache pode ser parcialmente compensado pela otimização de software cara e trabalhosa, mas dada a largura de banda de RAM insuficiente, não está claro quão eficaz o processador atualizado será em última análise para as tarefas que os supercomputadores em exaescala são projetados para resolver.
Enquanto o governo dos EUA debate se deve ou não continuar usando os desenvolvimentos da…
Tom Henderson, um informante de confiança, compartilhou informações dos bastidores sobre jogos em desenvolvimento pela…
O aclamado jogo de RPG de fantasia por turnos Clair Obscur: Expedition 33, do estúdio…
A Empresa Estatal Unitária Federal "GlavNIVC", vinculada ao Departamento de Gestão de Propriedades Presidenciais da…
Esta semana, a Tesla publicará um relatório detalhado sobre seus últimos resultados trimestrais, por isso…
A experiência política de Elon Musk pode ser interpretada de várias maneiras, mas, ainda no…