Este ano, o Centro Nacional de Supercomputação em Wuxi (China) lançou um poderoso supercomputador baseado nos avançados processadores Sunway SW26010-Pro de 384 núcleos do país. Comparado ao seu antecessor, o modelo Sunway SW26010 de 256 núcleos sem o prefixo “Pro”, seu desempenho aumentou até quatro vezes, relata o recurso Chips and Cheese.
Fonte da imagem: top500.org
O processador Sunway SW26010-Pro e os supercomputadores baseados nele tornaram-se conhecidos pela primeira vez em 2021, mas somente este ano, na conferência de computação de alto desempenho SC23, o desenvolvedor demonstrou publicamente este chip e falou sobre sua arquitetura. O desempenho máximo do FP64 de cada Sunway SW26010-Pro é de 13,8 teraflops – para comparação, o AMD EPYC 9654 de 96 núcleos demonstra cerca de 5,4 teraflops.
Sunway SW26010-Pro é baseado em uma arquitetura RISC proprietária completamente nova – inclui seis grupos principais (CG) e uma Unidade de Processamento de Protocolo (PPU). Cada cluster CG combina 64 núcleos de computação (Compute Processing Elements – CPE) com um mecanismo vetorial de 512 bits, 256 KB de cache de dados ultrarrápido e 16 KB de instruções; um núcleo de gerenciamento (Management Processing Element – MPE) – núcleo superescalar fora de ordem com mecanismo de vetor, cache L1 de 32 KB para dados e instruções, cache L2 de 512 KB; bem como uma interface de memória DDR4-3200 de 128 bits.
Fonte da imagem: chipsandcheese.com
MPE e CPE usam um protocolo baseado em diretório – ele fornece troca de dados consistente para reduzir a quantidade de dados transferidos entre núcleos e manter uma comunicação precisa entre eles. Isto é especialmente importante para aplicações com acesso pouco frequente a dados compartilhados. Cada processador de 6 clusters possui 384 núcleos de computação e 6 núcleos de controle – um total de 390 núcleos. Sunway SW26010-Pro difere de seu antecessor em maior velocidade operacional (2,25 GHz para CPE e 2,10 GHz para MPE versus 1,45 GHz para ambos no modelo anterior) e uma arquitetura RISC de 64 bits completamente redesenhada, que ajudou a aumentar o FP64 – a produtividade quadruplicou. O desenvolvedor aumentou a largura de banda da memória substituindo os controladores DDR3 por DDR4. Se a versão anterior do processador tinha 8 GB de DDR3 por cluster CPE, agora são 16 GB de DDR4 – respectivamente, a quantidade total de memória suportada pelo processador aumentou de 32 GB no SW26010 para 96 GB no SW26010- Pró.
Ao mesmo tempo, como observa Tom’s Hardware, o ponto fraco de ambas as versões do processador é o cache e a RAM. No modelo SW26010-Pro eles tentaram resolver o problema de cache aumentando a quantidade de memória de ultra-alta velocidade de 64 para 256 KB, mas na ausência de L2 adequado isso ainda não é suficiente. Além disso, o subsistema de memória DDR4-3200 de canal duplo (51,2 GB/s) mal é suficiente para 64 núcleos, cada um dos quais possui uma FPU vetorial de 512 bits e oferece desempenho de até 16 FP64-flops por ciclo. O problema de cache pode ser parcialmente compensado pela otimização de software cara e trabalhosa, mas dada a largura de banda de RAM insuficiente, não está claro quão eficaz o processador atualizado será em última análise para as tarefas que os supercomputadores em exaescala são projetados para resolver.
O jogo de ação de super-heróis Marvel's Wolverine, dos criadores da duologia Marvel's Spider-Man, Insomniac…
A Apple precisa aprimorar a funcionalidade de todas as suas soluções de software para atender…
Após a entrada em vigor, em 1º de setembro, da exigência de que as operadoras…
Em interação com o CEO da Apple, Tim Cook, o presidente americano Donald Trump o…
Alguns proprietários dos novos smartphones Google Pixel 10 notaram que as telas de seus dispositivos…
Ultimamente, tem se tornado comum falar sobre os problemas de vendas da Tesla, mas, na…