A Intel anunciou os aceleradores Xe HPC Ponte Vecchio: mais de 100 bilhões de transistores, mistura 5/7 / 10nm de tecnologia de processo Intel e TSMC e desempenho FP32 de mais de 45 teraflops

Conforme prometido há alguns anos, o principal bloco de construção para os gráficos e aceleradores da Intel serão os núcleos Xe, que podem ser combinados de forma flexível e combinados com outros blocos de hardware para atingir o desempenho e a funcionalidade desejados. A empresa já anunciou as primeiras GPUs da série Arc discretas “verdadeiras” e, no Intel Architecture Day, compartilhou detalhes sobre os aceleradores de servidor Xe HPC e Ponte Vecchio.

O principal Xe HPC é o Xe Core, que inclui oito motores vetoriais e matriciais para 512 e 4096 bits, respectivamente. Eles compartilham um cache L1 de 512 Kbyte com o qual você pode se comunicar a uma velocidade de 512 bytes / ciclo.

O desempenho declarado para o motor vetorial (antigo EU), focado na computação “clássica”, é de 256 operações / ciclo para FP32 e FP64, ou 512 – para FP16. O motor de matriz é mais necessário para cargas AI, uma vez que funciona apenas com dados TF32, FP16, BF16 e INT8 – 2048, 4096, 4096 e 8192 operações / ciclo, respectivamente. Este mecanismo funciona com instruções XMX (Xe Matrix eXtensions), que são um pouco semelhantes ao AMX no Intel Xeon Sapphire Rapids.

Os núcleos individuais são combinados em “fatias” – 16 núcleos Xe cada, que são complementados por 16 unidades de rastreamento de raio de hardware. É a fatia que é o bloco funcional básico. Ele está sendo fabricado na TSMC usando uma tecnologia de processo de 5 nm como parte da iniciativa IDM 2.0 da Intel. As fatias são combinadas em pilhas – 4 unidades. em todos.

A pilha também inclui uma base (Base) “substrato” (ou bloco), quatro controladores de memória HBM2e (a própria memória é colocada em blocos separados), um cache L2 comum de 144 MB, um mecanismo de mídia com codecs de hardware, bem como uma placa Xe Link e uma controladora PCIe 5. A placa base é Intel 7 e usa EMIB para combinar todos os blocos.

As telhas Xe Link, fabricadas com a tecnologia de processo de 7nm da TSMC, incluem 8 interfaces de pilha / acelerador acopladas a um switch de 8 portas e usam blocos SerDes de classe 90G. Tudo isso permite combinar até 8 stacks de acordo com o esquema each-to-each, que, em geral, se assemelha à abordagem da NVIDIA, embora o NVSwitch deste ainda seja (por enquanto) um componente externo.

No próprio acelerador, dependendo da configuração, pode haver uma ou duas pilhas. No caso da Ponte Vecchio, existem apenas dois deles, e a Intel fornece alguns dados sobre seu desempenho: mais de 45 teraflops nos cálculos do FP32, mais de 5 TB / s de largura de banda da malha de memória interna e mais de 2 TB / s para conexões externas. Para comparação, o NVIDIA A100 tem um desempenho FP32 declarado de 19,5 teraflops, e o AMD Instinct MI100 – 23,1 teraflops.

A Intel também mostrou os resultados do benchmark ResNet-50 em treinamento e inferência: 3400 e 43000 imagens por segundo, respectivamente. Esses resultados são preliminares, uma vez que não foram obtidos na versão final do “silício”. Mas deve-se ter em mente que a Ponte Vecchio tem outra vantagem – um Rambo-tile separado com um cache super-rápido adicional, que provavelmente pode ser considerado como um cache L3.

No geral, a Ponte Vecchio é um dos chips mais complexos até hoje. Ele combina usando EMIB e Foveros 47 tiles feitos usando cinco processos técnicos diferentes, e o orçamento total do transistor excede 100 bilhões. Esses aceleradores estarão disponíveis no formato OAM e na forma de placas prontas com quatro aceleradores a bordo (novamente , NVIDIA HGX vem à mente). E são precisamente essas placas-mãe, emparelhadas com dois processadores Sapphire, que formarão os nós do supercomputador Aurora. Outra máquina usando um monte de novas CPUs e aceleradores Intel será o SuperMUC-NG (Fase 2).

O lançamento oficial da Ponte Vecchio está previsto para 2022, mas o lançamento das próximas gerações de aceleradores AMD e NVIDIA, com os quais os novos itens precisarão ser comparados, também não estão longe. Até agora, a Intel está envolvida em um assunto igualmente importante – o desenvolvimento de um ecossistema de software baseado em oneAPI, um conjunto de ferramentas universais de desenvolvimento de aplicativos para aplicativos heterogêneos (CPU, GPU, IPU, FPGA, etc.), que é compatível com AMD e hardware NVIDIA.

avalanche

Postagens recentes

Uma era chegou ao fim: a Apple descontinuou o computador desktop Mac Pro, sem planos para novas atualizações.

A Apple descontinuou oficialmente o Mac Pro, seu computador desktop de alto desempenho. Não há…

1 hora atrás

Uma era chegou ao fim: a Apple descontinuou o computador desktop Mac Pro, sem planos para novas atualizações.

A Apple descontinuou oficialmente o Mac Pro, seu computador desktop de alto desempenho. Não há…

1 hora atrás

Cientistas confirmaram experimentalmente que os agentes de IA do OpenClaw às vezes escapam do controle.

Um novo estudo da Northeastern University, nos EUA, descobriu que os agentes de IA autônomos…

7 horas atrás