NVIDIA mais uma vez mostrou resultados líderes no benchmark MLPerf Inference AI

A NVIDIA informou que suas plataformas apresentaram os melhores resultados em todos os testes de desempenho de data center no benchmark MLPerf Inference v4.1, onde a família de aceleradores Blackwell fez sua estreia.

O acelerador NVIDIA B200 (SXM, 180 GB HBM) revelou-se quatro vezes mais produtivo que o H100 na maior carga de trabalho entre os modelos de linguagem grande (LLM) MLPerf – Llama 2 70B – graças ao uso do Transformer Engine de segunda geração e Inferência FP4 em núcleos Tensor. No entanto, é pelo B200 que os clientes não podem esperar.

O acelerador NVIDIA H200, que passou a estar disponível na nuvem CoreWeave, bem como nos sistemas ASUS, Dell, HPE, QTC e Supermicro, apresentou os melhores resultados em todos os testes na categoria data center, incluindo a mais recente adição ao benchmark, LLM Mixtral 8x7B com um total de 46 parâmetros, 7 bilhões e 12,9 bilhões de parâmetros ativos por token usando a arquitetura Mixture of Experts (MoE).

Fonte da imagem: NVIDIA

Como observou a NVIDIA, o MoE ganhou popularidade como uma forma de trazer maior versatilidade ao LLM, permitindo-lhe responder a uma gama mais ampla de perguntas e executar tarefas mais diversas em uma única implantação. A arquitetura também é mais eficiente porque apenas alguns especialistas por inferência são ativados – o que significa que tais modelos produzem resultados muito mais rápido do que modelos de alta densidade (Dense) de tamanho semelhante.

A NVIDIA também observa que à medida que o tamanho dos modelos aumenta, para reduzir o tempo de resposta durante a inferência, a combinação de vários aceleradores torna-se obrigatória. De acordo com a empresa, o NVLink e o NVSwitch já na geração NVIDIA Hopper oferecem vantagens significativas para inferência LLM econômica em tempo real. E a plataforma Blackwell expandirá ainda mais as capacidades do NVLink, permitindo a combinação de até 72 aceleradores.

Fonte da imagem: NVIDIA

Ao mesmo tempo, a empresa lembrou mais uma vez a importância do ecossistema de software. Assim, na última rodada de inferência MLPerf, todas as principais plataformas NVIDIA demonstraram um aumento acentuado no desempenho. Por exemplo, os aceleradores NVIDIA H200 mostraram um aumento de 27% no desempenho de inferência de IA generativa em comparação com a rodada anterior. E o Triton Inference Server demonstrou quase o mesmo desempenho das plataformas bare-metal.

Por fim, com otimizações de software nesta rodada MLPerf, a plataforma NVIDIA Jetson AGX Orin alcançou mais de 6,2x de melhoria no rendimento e 2,5x de melhoria na latência em relação à rodada anterior na carga de trabalho GPT-J LLM. Segundo a NVIDIA, o Jetson é capaz de processar localmente qualquer modelo de transformador, incluindo LLM, modelos da classe Vision Transformer e, por exemplo, Stable Diffusion. E em vez de desenvolver modelos altamente especializados, agora você pode usar o modelo universal GPT-J-6B para processamento de linguagem natural na borda.

avalanche

Postagens recentes

Após 28 anos, os fãs descobriram “um dos segredos mais antigos” de The Elder Scrolls: o que se esconde sob as saias das mulheres em Redguard.

Em antecipação ao ambicioso jogo de RPG de fantasia The Elder Scrolls VI, os fãs…

28 minutos atrás

A Vitality derrotou a Spirit na final do IEM Rio 2026 e levou para casa US$ 1 milhão em barras de ouro no Grand Slam.

A equipe francesa de Counter-Strike, Team Vitality, venceu o torneio IEM Rio 2026, derrotando a…

28 minutos atrás

Os reguladores consideram o modelo de IA do Mito Antrópico uma ameaça ao sistema bancário.

Na melhor tradição das histórias de ficção científica sobre a "ascensão das máquinas", a startup…

1 hora atrás

O foguete da Blue Origin lançou um satélite em uma órbita errada, e a espaçonave BlueBird 7 será agora devolvida à Terra.

O lançamento de ontem do satélite BlueBird 7 da AST SpaceMobile, a bordo do foguete…

2 horas atrás

Huawei Vision Smart Screen S7 Pro revelada – uma TV Mini-LED com HarmonyOS 4.3 e recursos de IA.

A Huawei apresentou a Vision Smart Screen S7 Pro TV, ampliando sua linha de dispositivos…

3 horas atrás

A Intel está aumentando sua capacidade produtiva: as compras de equipamentos dispararam.

O boom da IA ​​teve um impacto bastante tradicional nos negócios da Intel: não há…

3 horas atrás