Novo benchmark – novo recorde: NVIDIA confirmou sua posição de liderança em MLPerf Inference

A NVIDIA publicou resultados novos e ainda mais impressionantes na área de trabalho com modelos de linguagem grandes (LLM) no benchmark MLPerf Inference 4.0. Nos últimos seis meses, os já elevados resultados demonstrados pela arquitetura Hopper em cenários de inferência foram quase triplicados. Um resultado tão impressionante foi alcançado graças às melhorias de hardware nos aceleradores H200 e às otimizações de software.

A IA generativa literalmente explodiu a indústria: nos últimos dez anos, o poder computacional gasto no treinamento de redes neurais cresceu seis ordens de magnitude, e LLMs com um trilhão de parâmetros não são mais incomuns. No entanto, a inferência de tais modelos também é uma tarefa difícil, que a NVIDIA aborda de forma abrangente, utilizando, em suas próprias palavras, “otimização multidimensional”.

Fonte da imagem: NVIDIA

Uma das principais ferramentas é o TensorRT-LLM, que inclui um compilador e outras ferramentas de desenvolvimento que levam em consideração a arquitetura dos aceleradores da empresa. Graças a ele foi possível quase triplicar o desempenho da inferência GPT-J nos aceleradores H100 em apenas seis meses. Esse aumento foi alcançado graças à otimização de filas em tempo real (lote de sequência em voo), ao uso de cache KV paginado, paralelismo de tensor (distribuição de pesos entre aceleradores), quantização FP8 e ao uso do novo kernel XQA.

No caso dos aceleradores H200, que utilizam a mesma arquitetura Hopper do H100, a memória desempenha um papel importante: 141 GB HBM3e (4,8 TB/s) versus 80 GB HBM3 (3,35 TB/s). Este volume permite colocar o modelo de nível Llama 2 70B inteiramente na memória local. No teste MLPerf Llama 2 70B, os aceleradores H200 são 28% mais produtivos que o H100 com o mesmo pacote térmico de 700 W, e aumentar o pacote térmico para 1000 W (como alguns fornecedores fazem em suas plataformas MGX) dá outros 11– Aumento de 14%, e a diferença final com o H100 neste teste pode chegar até 45%.

Em uma seção especial da nova versão do MLPerf, a NVIDIA demonstrou várias técnicas interessantes para maior otimização: “escassez estruturada”, que permite aumentar o desempenho no teste Llama 2 em 33%, “poda”, que simplifica a IA modelo e permite aumentar a velocidade de inferência em mais 40%, bem como DeepCache, que simplifica os cálculos para Stable Diffusion XL e proporciona um aumento de desempenho de até 74%.

Hoje, a plataforma baseada em módulos H200, segundo a NVIDIA, é a plataforma de inferência mais rápida disponível. A empresa se vangloriou dos resultados do GH200 na última rodada, mas não divulgou os resultados dos aceleradores Blackwell. No entanto, nem todos consideram os resultados do MLPerf indicativos. Por exemplo, a Groq não participa neste benchmark por uma questão de princípio.

avalanche

Postagens recentes

A Intel comprará a participação restante em sua fábrica irlandesa Fab 34 por US$ 14,2 bilhões.

A Intel anunciou que investirá US$ 14,2 bilhões para recomprar a participação de 49% em…

17 minutos atrás

O aumento no preço da memória RAM teve um impacto negativo na disponibilidade do Raspberry Pi.

Durante anos, os produtos Raspberry Pi foram a referência em dispositivos de computação acessíveis para…

17 minutos atrás

É oficial: a seleção de jogos da PS Plus de abril inclui cinco títulos em vez de três, mas há um porém.

Como esperado, em 1º de abril, a Sony Interactive Entertainment revelou uma seleção de jogos…

39 minutos atrás

O ambicioso jogo de ação Saros, dos desenvolvedores de Returnal, não terá seu lançamento atrasado – o jogo atingiu o status gold quase um mês antes do lançamento.

O estúdio finlandês Housemarque (Returnal, Nex Machina), com o apoio da editora Sony Interactive Entertainment,…

2 horas atrás

O criador de Disco Elysium revelou as condições sob as quais Disco Elysium 2 será lançado.

Robert Kurvitz, designer-chefe e criador do universo Disco Elysium, comentou sobre o destino da franquia…

2 horas atrás

O Ollama agora oferece suporte à aceleração de hardware em chips Apple M5 com 32 GB de memória.

O Ollama, um aplicativo desenvolvido para executar localmente modelos de inteligência artificial em computadores com…

2 horas atrás