A China criou um chip Sunway SW26010-Pro de 384 núcleos para supercomputadores, que é 4 vezes mais rápido que seu antecessor

Este ano, o Centro Nacional de Supercomputação em Wuxi (China) lançou um poderoso supercomputador baseado nos avançados processadores Sunway SW26010-Pro de 384 núcleos do país. Comparado ao seu antecessor, o modelo Sunway SW26010 de 256 núcleos sem o prefixo “Pro”, seu desempenho aumentou até quatro vezes, relata o recurso Chips and Cheese.

Fonte da imagem: top500.org

O processador Sunway SW26010-Pro e os supercomputadores baseados nele tornaram-se conhecidos pela primeira vez em 2021, mas somente este ano, na conferência de computação de alto desempenho SC23, o desenvolvedor demonstrou publicamente este chip e falou sobre sua arquitetura. O desempenho máximo do FP64 de cada Sunway SW26010-Pro é de 13,8 teraflops – para comparação, o AMD EPYC 9654 de 96 núcleos demonstra cerca de 5,4 teraflops.

Sunway SW26010-Pro é baseado em uma arquitetura RISC proprietária completamente nova – inclui seis grupos principais (CG) e uma Unidade de Processamento de Protocolo (PPU). Cada cluster CG combina 64 núcleos de computação (Compute Processing Elements – CPE) com um mecanismo vetorial de 512 bits, 256 KB de cache de dados ultrarrápido e 16 KB de instruções; um núcleo de gerenciamento (Management Processing Element – MPE) – núcleo superescalar fora de ordem com mecanismo de vetor, cache L1 de 32 KB para dados e instruções, cache L2 de 512 KB; bem como uma interface de memória DDR4-3200 de 128 bits.

Fonte da imagem: chipsandcheese.com

MPE e CPE usam um protocolo baseado em diretório – ele fornece troca de dados consistente para reduzir a quantidade de dados transferidos entre núcleos e manter uma comunicação precisa entre eles. Isto é especialmente importante para aplicações com acesso pouco frequente a dados compartilhados. Cada processador de 6 clusters possui 384 núcleos de computação e 6 núcleos de controle – um total de 390 núcleos. Sunway SW26010-Pro difere de seu antecessor em maior velocidade operacional (2,25 GHz para CPE e 2,10 GHz para MPE versus 1,45 GHz para ambos no modelo anterior) e uma arquitetura RISC de 64 bits completamente redesenhada, que ajudou a aumentar o FP64 – a produtividade quadruplicou. O desenvolvedor aumentou a largura de banda da memória substituindo os controladores DDR3 por DDR4. Se a versão anterior do processador tinha 8 GB de DDR3 por cluster CPE, agora são 16 GB de DDR4 – respectivamente, a quantidade total de memória suportada pelo processador aumentou de 32 GB no SW26010 para 96 ​​GB no SW26010- Pró.

Ao mesmo tempo, como observa Tom’s Hardware, o ponto fraco de ambas as versões do processador é o cache e a RAM. No modelo SW26010-Pro eles tentaram resolver o problema de cache aumentando a quantidade de memória de ultra-alta velocidade de 64 para 256 KB, mas na ausência de L2 adequado isso ainda não é suficiente. Além disso, o subsistema de memória DDR4-3200 de canal duplo (51,2 GB/s) mal é suficiente para 64 núcleos, cada um dos quais possui uma FPU vetorial de 512 bits e oferece desempenho de até 16 FP64-flops por ciclo. O problema de cache pode ser parcialmente compensado pela otimização de software cara e trabalhosa, mas dada a largura de banda de RAM insuficiente, não está claro quão eficaz o processador atualizado será em última análise para as tarefas que os supercomputadores em exaescala são projetados para resolver.

avalanche

Postagens recentes

SpaceX batiza sua futura constelação de satélites de IA com capacidade para um milhão de pessoas com o mesmo nome: Starmind

O CEO da SpaceX, Elon Musk, mais uma vez buscou inspiração nas estrelas. Ele confirmou…

19 minutos atrás

A Ford recontratou engenheiros demitidos para corrigir bugs relacionados à inteligência artificial.

A Ford foi obrigada a recontratar antigos engenheiros para corrigir falhas causadas por sistemas automatizados…

19 minutos atrás

As profissões de engenharia provaram ser as mais resilientes na era da IA.

A forma como o mercado de trabalho se transformará na era da inteligência artificial continua…

54 minutos atrás

O Google continua a perder talentos em IA com a chegada de mais dois pesquisadores à Anthropic.

O Google continua a perder funcionários valiosos, e isso já está causando preocupação entre os…

1 hora atrás

A Apple aumentou os preços de todos os Macs e iPads em US$ 100 a US$ 1.300 — pelo mesmo motivo que todos os outros.

A Apple finalmente tomou medidas extremas e anunciou aumentos de preços em computadores Mac, tablets…

1 hora atrás

A IBM apresentou a primeira tecnologia de processo de 0,7 nanômetros e a arquitetura de transistor nanostack 3D.

A IBM apresentou a primeira tecnologia de fabricação de chips de silício subnanométricos do setor,…

2 horas atrás