A NVIDIA informou que suas plataformas apresentaram os melhores resultados em todos os testes de desempenho de data center no benchmark MLPerf Inference v4.1, onde a família de aceleradores Blackwell fez sua estreia.
O acelerador NVIDIA B200 (SXM, 180 GB HBM) revelou-se quatro vezes mais produtivo que o H100 na maior carga de trabalho entre os modelos de linguagem grande (LLM) MLPerf – Llama 2 70B – graças ao uso do Transformer Engine de segunda geração e Inferência FP4 em núcleos Tensor. No entanto, é pelo B200 que os clientes não podem esperar.
O acelerador NVIDIA H200, que passou a estar disponível na nuvem CoreWeave, bem como nos sistemas ASUS, Dell, HPE, QTC e Supermicro, apresentou os melhores resultados em todos os testes na categoria data center, incluindo a mais recente adição ao benchmark, LLM Mixtral 8x7B com um total de 46 parâmetros, 7 bilhões e 12,9 bilhões de parâmetros ativos por token usando a arquitetura Mixture of Experts (MoE).
Como observou a NVIDIA, o MoE ganhou popularidade como uma forma de trazer maior versatilidade ao LLM, permitindo-lhe responder a uma gama mais ampla de perguntas e executar tarefas mais diversas em uma única implantação. A arquitetura também é mais eficiente porque apenas alguns especialistas por inferência são ativados – o que significa que tais modelos produzem resultados muito mais rápido do que modelos de alta densidade (Dense) de tamanho semelhante.
A NVIDIA também observa que à medida que o tamanho dos modelos aumenta, para reduzir o tempo de resposta durante a inferência, a combinação de vários aceleradores torna-se obrigatória. De acordo com a empresa, o NVLink e o NVSwitch já na geração NVIDIA Hopper oferecem vantagens significativas para inferência LLM econômica em tempo real. E a plataforma Blackwell expandirá ainda mais as capacidades do NVLink, permitindo a combinação de até 72 aceleradores.
Ao mesmo tempo, a empresa lembrou mais uma vez a importância do ecossistema de software. Assim, na última rodada de inferência MLPerf, todas as principais plataformas NVIDIA demonstraram um aumento acentuado no desempenho. Por exemplo, os aceleradores NVIDIA H200 mostraram um aumento de 27% no desempenho de inferência de IA generativa em comparação com a rodada anterior. E o Triton Inference Server demonstrou quase o mesmo desempenho das plataformas bare-metal.
Por fim, com otimizações de software nesta rodada MLPerf, a plataforma NVIDIA Jetson AGX Orin alcançou mais de 6,2x de melhoria no rendimento e 2,5x de melhoria na latência em relação à rodada anterior na carga de trabalho GPT-J LLM. Segundo a NVIDIA, o Jetson é capaz de processar localmente qualquer modelo de transformador, incluindo LLM, modelos da classe Vision Transformer e, por exemplo, Stable Diffusion. E em vez de desenvolver modelos altamente especializados, agora você pode usar o modelo universal GPT-J-6B para processamento de linguagem natural na borda.