Categorias: Mercado de tecnologia e TI. notícia

NVIDIA mais uma vez mostrou resultados líderes no benchmark MLPerf Inference AI

A NVIDIA informou que suas plataformas apresentaram os melhores resultados em todos os testes de desempenho de data center no benchmark MLPerf Inference v4.1, onde a família de aceleradores Blackwell fez sua estreia.

O acelerador NVIDIA B200 (SXM, 180 GB HBM) revelou-se quatro vezes mais produtivo que o H100 na maior carga de trabalho entre os modelos de linguagem grande (LLM) MLPerf – Llama 2 70B – graças ao uso do Transformer Engine de segunda geração e Inferência FP4 em núcleos Tensor. No entanto, é pelo B200 que os clientes não podem esperar.

O acelerador NVIDIA H200, que passou a estar disponível na nuvem CoreWeave, bem como nos sistemas ASUS, Dell, HPE, QTC e Supermicro, apresentou os melhores resultados em todos os testes na categoria data center, incluindo a mais recente adição ao benchmark, LLM Mixtral 8x7B com um total de 46 parâmetros, 7 bilhões e 12,9 bilhões de parâmetros ativos por token usando a arquitetura Mixture of Experts (MoE).

Fonte da imagem: NVIDIA

Como observou a NVIDIA, o MoE ganhou popularidade como uma forma de trazer maior versatilidade ao LLM, permitindo-lhe responder a uma gama mais ampla de perguntas e executar tarefas mais diversas em uma única implantação. A arquitetura também é mais eficiente porque apenas alguns especialistas por inferência são ativados – o que significa que tais modelos produzem resultados muito mais rápido do que modelos de alta densidade (Dense) de tamanho semelhante.

A NVIDIA também observa que à medida que o tamanho dos modelos aumenta, para reduzir o tempo de resposta durante a inferência, a combinação de vários aceleradores torna-se obrigatória. De acordo com a empresa, o NVLink e o NVSwitch já na geração NVIDIA Hopper oferecem vantagens significativas para inferência LLM econômica em tempo real. E a plataforma Blackwell expandirá ainda mais as capacidades do NVLink, permitindo a combinação de até 72 aceleradores.

Fonte da imagem: NVIDIA

Ao mesmo tempo, a empresa lembrou mais uma vez a importância do ecossistema de software. Assim, na última rodada de inferência MLPerf, todas as principais plataformas NVIDIA demonstraram um aumento acentuado no desempenho. Por exemplo, os aceleradores NVIDIA H200 mostraram um aumento de 27% no desempenho de inferência de IA generativa em comparação com a rodada anterior. E o Triton Inference Server demonstrou quase o mesmo desempenho das plataformas bare-metal.

Por fim, com otimizações de software nesta rodada MLPerf, a plataforma NVIDIA Jetson AGX Orin alcançou mais de 6,2x de melhoria no rendimento e 2,5x de melhoria na latência em relação à rodada anterior na carga de trabalho GPT-J LLM. Segundo a NVIDIA, o Jetson é capaz de processar localmente qualquer modelo de transformador, incluindo LLM, modelos da classe Vision Transformer e, por exemplo, Stable Diffusion. E em vez de desenvolver modelos altamente especializados, agora você pode usar o modelo universal GPT-J-6B para processamento de linguagem natural na borda.

avalanche

Próximo O crescimento de 122% da receita da Nvidia no último trimestre superou as expectativas do mercado »

Anterior « O Google finalmente consertou o gerador de imagens de IA do Gemini. Ele exagerou na inclusão racial

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Processadores

Os processadores chineses x86 Hygon C86-5G receberam 128 núcleos com suporte para 512 threads.

Segundo fontes online, a empresa chinesa Hygon criou processadores de próxima geração com arquitetura x86.…

1 hora atrás

Programas

O Google restringiu o acesso da Meta aos modelos de IA do Gemini devido à alta carga na infraestrutura.

O Google restringiu o acesso da Meta✴Platforms ao poder computacional usado para executar sua família…

1 hora atrás

Consoles de jogos

Os varejistas estão preocupados com a possibilidade de não haver consoles suficientes para quem quiser jogar GTA 6, e uma escassez é esperada.

Uma grande varejista alertou para o alto risco de escassez de consoles de videogame antes…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Uma startup chinesa está se preparando para comercializar um exterminador de mosquitos a laser com inteligência artificial.

A startup chinesa Photon Matrix Lab, que desenvolve um repelente de mosquitos a laser com…

6 horas atrás

Notícias da rede

Donald Trump ameaçou impor tarifas de 100% aos países que tributam os serviços digitais de empresas americanas.

Tendo-se cercado de representantes da indústria tecnológica americana durante seu segundo mandato, Donald Trump está…

10 horas atrás

Processadores

A Apple e a SpaceX terão a oportunidade de testar a tecnologia Intel 14A neste outono.

Pouco depois de assinar um acordo de cooperação com a Intel, Elon Musk, chefe da…