Em vez de criar chips dedicados para computação FP64 por hardware, a NVIDIA está usando emulação para impulsionar o desempenho de HPC em aceleradores de IA, de acordo com o The Register. A empresa abandonou o desenvolvimento de unidades FP64 na geração Blackwell Ultra, e os mais recentes aceleradores Rubin ostentam um desempenho vetorial FP64 máximo de 33 teraflops, em comparação com os 34 teraflops do H100, lançado há quatro anos, e cerca de 40 teraflops do Blackwell.
Ao habilitar a emulação por software nas bibliotecas CUDA da NVIDIA, o acelerador promete atingir um desempenho de até 200 teraflops em computação matricial FP64. No entanto, o Blackwell pode oferecer até 150 teraflops nesse caso com emulação, enquanto o Hopper alcançou 67 teraflops reais. “Através de extensa pesquisa com parceiros e nossos próprios estudos internos, descobrimos que a precisão alcançada com a emulação é pelo menos tão boa quanto a alcançada com os Tensor Cores de hardware”, disse Dan Ernst, diretor sênior de produtos de supercomputação da NVIDIA, ao The Register.
A AMD, no entanto, acredita que isso não se aplica a todos os cenários. “O desempenho é bastante bom em alguns benchmarks, mas em simulações de física do mundo real, isso não é tão claro”, afirma Nicholas Malaya, pesquisador da AMD. Ele expressou a opinião de que, embora a emulação de FP64 certamente mereça mais pesquisa e experimentação, ainda não está pronta para uso generalizado. A própria AMD está explorando a possibilidade de emulação de FP64 por software no Instinct MI355X para determinar áreas de sua possível aplicação.

Fonte da imagem: Hilda Trinidad / Unsplash
Embora os chips utilizem cada vez mais tipos de dados de menor precisão, o FP64 continua sendo o padrão ouro para computação científica, e por um bom motivo: o FP64 possui uma faixa dinâmica incomparável. Os modelos de linguagem modernos são treinados usando cálculos em FP8, e os tipos de dados compactos MXFP8/MXFP4 ou NVFP4 fornecem uma gama de valores suficiente para IA. Essa é uma boa solução para matemática difusa em grandes modelos de linguagem, mas não substitui o FP64 para HPC. As cargas de trabalho de IA são altamente tolerantes a erros, enquanto as tarefas de HPC exigem alta precisão.
A AMD destacou que a emulação de FP64 da NVIDIA não está totalmente em conformidade com o padrão IEEE. Os algoritmos da NVIDIA não levam em conta conceitos como zeros positivos e negativos, erros NaN (Not a Number) e erros de número infinito. Por causa disso, pequenos erros nos cálculos intermediários usados para emulação de maior precisão podem levar a distorções que podem afetar a precisão do resultado final, explicou Malaya. Ele acrescentou que a adequação do uso da emulação FP64 depende da aplicação específica.
A emulação FP64 funciona melhor para problemas bem condicionados, onde pequenas alterações na entrada levam a pequenas alterações no resultado final. Um excelente exemplo desse tipo de problema é o benchmark Linpack (HPL). “Mas se você observar a ciência dos materiais, códigos de combustão, sistemas de matriz de fita e assim por diante, verá que esses são sistemas muito menos condicionados e, de repente, tudo começa a falhar”, disse ele.

Fonte da imagem: NVIDIA
A precisão pode ser melhorada aumentando o número de operações utilizadas, mas, além de um certo ponto, não há benefício na emulação. Além disso, todas essas operações exigem memória. “Temos dados que mostram que o algoritmo de Ozaki requer aproximadamente o dobro de memória para emular matrizes FP64”, disse Malaya. Portanto, a empresa está desenvolvendo aceleradores MI430X especializados com desempenho FP64/FP32 aprimorado, mas os pesquisadores temem que eles não sejam de grande interesse para a empresa, já que os aceleradores de IA geram mais receita.
Ernst afirma que, para a maioria dos especialistas em HPC, a falta de conformidade total com o padrão IEEE não é um grande problema. Depende muito da aplicação específica. No entanto, a NVIDIA desenvolveu algoritmos adicionais para detectar e mitigar os erros mencionados e as operações de emulação ineficientes. Ernst também reconheceu que o uso de memória com emulação pode ser um pouco maior, mas enfatizou que essa sobrecarga está relacionada aos cálculos, não à aplicação em si — na maioria dos casos, estamos falando de matrizes não maiores que alguns GB.
No entanto, tudo isso não muda o fato de que a emulação só é útil para um subconjunto de cargas de trabalho de HPC que dependem de operações de multiplicação de matrizes densas (DGEMM). De acordo com Malaya, para 60 a 70% das cargas de trabalho de HPC, a emulação oferece pouco ou nenhum benefício. “Estimamos que a grande maioria das cargas de trabalho de HPC do mundo real dependa de multiplicação vetorial (FMA) em vez de DGEMM”, disse ele, observando que este é de fato um segmento de nicho, embora não seja pequeno.Participação de mercado. Para cargas de trabalho com uso intensivo de vetores, como dinâmica de fluidos computacional (CFD), os aceleradores Rubin ainda dependerão de unidades vetoriais FP64 lentas.
Se você notar um erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você pode melhorar? Ficaremos felizes em receber seu feedback.
Fonte: