O consórcio MLCommons publicou os resultados dos testes de várias soluções de hardware no benchmark MLPerf para aprendizado de máquina (ML), conforme relatado pelo IEEE Spectrum. Ele observou que os aceleradores baseados em Blackwell da NVIDIA superaram todos os outros chips, mas a versão mais recente dos aceleradores Instinct da AMD, o Instinct MI325X, estava no mesmo nível da solução concorrente NVIDIA H200. Resultados comparáveis foram obtidos principalmente em testes de um dos modelos de linguagem de pequena escala (LLM) – Llama2 70B. Para refletir melhor a natureza evolutiva do ML, o consórcio adicionou três novos benchmarks MLPerf.
A MLPerf lançou uma ferramenta de benchmarking para sistemas de ML para fornecer comparações equivalentes entre sistemas de computador. Os autores usam seu próprio software e hardware, mas as redes neurais subjacentes devem ser as mesmas. Atualmente, há 11 benchmarks de servidor, incluindo três adicionados este ano.
Fonte da imagem: IEEE SPECTRUM
Miro Hodak, copresidente da MLPerf Inference, observou que a indústria de IA está evoluindo rapidamente e, para acompanhar, eles tiveram que “acelerar o ritmo de introdução de novos benchmarks no espaço”.
Adicionados dois testes para LLM. O popular e relativamente compacto Llama2 70B já é um benchmark MLPerf estabelecido, mas o consórcio decidiu incluir um teste que simula a capacidade de resposta que os usuários esperam dos chatbots. Portanto, um novo benchmark, Llama2-70B Interactive, foi adicionado, o que reforça os requisitos de hardware: os computadores devem emitir pelo menos 25 tokens por segundo com uma latência de resposta de no máximo 450 ms.
Dada a crescente popularidade da “IA de agente”, a MLPerf decidiu adicionar testes LLM com as características necessárias para tais tarefas. No final, o Llama3.1 405B foi escolhido. Este modelo tem uma ampla janela de contexto de 128.000 tokens, o que é 30 vezes maior que o Llama2 70B.
O terceiro novo benchmark, RGAT, é uma rede de atenção gráfica. Ele classifica informações na rede. Por exemplo, o conjunto de dados de testes RGAT consiste em artigos de pesquisa vinculados por autores, instituições e campos de pesquisa, totalizando 2 TB de dados. O RGAT deve classificar artigos em quase 3.000 tópicos.
Desta vez, as inscrições para testes foram recebidas da NVIDIA e de 15 empresas parceiras, incluindo Dell, Google e Supermicro. As GPUs baseadas em Hopper de primeira e segunda geração da NVIDIA, a H100 e a H200, tiveram bom desempenho. “Conseguimos adicionar mais 60% de desempenho no último ano”, disse Dave Salvator, gerente geral de produtos de computação acelerada da NVIDIA, no Hopper, que será lançado em 2022. “Ele ainda tem alguma margem de desempenho.” No entanto, o líder foi o B200 com arquitetura Blackwell. “A única coisa mais rápida que Hopper é Blackwell”, diz Salvator. O B200 tem 36% mais memória HBM que o H200, mas o mais importante é que ele pode executar operações matemáticas de ML importantes usando números com precisão de apenas 4 bits, em vez da precisão de 8 bits do Hopper. Unidades de computação de menor precisão são menores em tamanho e, portanto, se adaptam melhor à GPU, permitindo cálculos de IA mais rápidos.
No teste Llama3.1 405B, o sistema Supermicro com oito B200s entregou quase quatro vezes mais tokens por segundo do que o sistema com oito Cisco H200s. E o mesmo sistema Supermicro foi três vezes mais rápido que o computador H200 mais rápido na versão interativa do Llama2 70B.
A NVIDIA usou o superchip GB200 – uma combinação de aceleradores Blackwell e processadores Grace – para demonstrar como seus caminhos de dados NVL72 podem integrar vários servidores em um rack, agindo como uma GPU gigante. Em um resultado não verificado que a empresa compartilhou com repórteres, um rack completo de computadores baseados em GB200 NVL72 entregou 869.200 tokens por segundo no Llama2 70B. O sistema mais rápido na atual rodada do MLPerf, o servidor NVIDIA B200, mostrou 98.443 tokens por segundo.
O acelerador Instinct MI325X é posicionado pela AMD como um concorrente do H200. Ele tem a mesma arquitetura de seu antecessor MI300, mas é equipado com memória HBM aumentada e maior largura de banda – 256 GB e 6 TB/s (um aumento de 33% e 13%, respectivamente). A AMD otimizou o software, o que aumentou a velocidade de inferência do DeepSeek-R1 em 8 vezes.
No teste Llama2 70B, computadores com oito MI325Xs ficaram atrás de sistemas similares baseados em H200 em apenas 3-7%. Em tarefas de geração de imagens, o sistema MI325X teve desempenho 10% superior ao do sistema H200.
O parceiro da AMD, Mangoboost, também demonstrou um aumento de desempenho de quase quatro vezes no teste Llama2 70B, executando os cálculos em quatro computadores.
A Intel tradicionalmente usa apenas sistemas de CPU em seus benchmarks para mostrar que algumas cargas de trabalho não exigem GPUs. Desta vez, foram apresentados os primeiros dados sobre os chips Intel Xeon 6 (antigo Granite Rapids), fabricados com a tecnologia de processo de 3 nm da Intel. A máquina dual Xeon 6 atingiu 40.285 amostras por segundo, cerca de um terço do desempenho do sistema Cisco com dois NVIDIA H100s.
Em comparação com os resultados do Xeon 5 de outubro de 2024, o novo processador mostra um aumento de 80% neste teste e acelerações ainda maiores em tarefas de detecção de objetos e imagens médicas. Desde 2021, quando a Intel começou a divulgar os resultados do Xeon (com o Xeon 3), seus processadores obtiveram um aumento de desempenho de 11x no teste ResNet.
A Intel saiu da categoria de aceleradores: seu concorrente H100, o Gaudi 3, não aparece nos resultados atuais do MLPerf, nem na versão 4.1, lançada em outubro de 2024.
O chip TPU v6e do Google também mostrou suas capacidades, embora os resultados tenham se limitado à tarefa de geração de imagens. Com 5,48 solicitações por segundo, o sistema de quatro TPUs apresentou uma melhoria de desempenho de 2,5x em relação a uma máquina semelhante usando a TPU v5e nos resultados de outubro de 2024. Ainda assim, 5,48 RPS é quase o mesmo que um PC Lenovo de tamanho similar com NVIDIA H100.