“SO” para fábricas de IA: NVIDIA Dynamo irá acelerar a inferência e simplificar o dimensionamento de modelos de IA de raciocínio

A NVIDIA anunciou hoje o NVIDIA Dynamo, o sucessor do NVIDIA Triton Inference Server, um ambiente de software de código aberto para desenvolvedores que acelera a inferência e facilita o dimensionamento de modelos de IA de raciocínio em fábricas de IA com sobrecarga mínima e eficiência máxima. O CEO da NVIDIA, Jensen Huang, chamou o Dynamo de “um sistema operacional para fábricas de IA”.

O NVIDIA Dynamo melhora o desempenho de inferência ao mesmo tempo que reduz o custo de dimensionamento da computação durante os testes. Ao otimizar a inferência no NVIDIA Blackwell, a plataforma aumenta drasticamente o desempenho do modelo de IA de raciocínio DeepSeek-R1.

Fonte da imagem: NVIDIA

Projetada para maximizar a receita de tokens para data centers de IA, a plataforma NVIDIA Dynamo orquestra e acelera as comunicações de inferência em milhares de aceleradores e usa processamento de dados desagregados para separar as fases de processamento e geração de modelos de grandes linguagens (LLMs) em todos os aceleradores. Isso permite que cada fase seja otimizada independentemente de suas necessidades específicas e garante a utilização máxima dos recursos de computação.

Com o mesmo número de aceleradores, o Dynamo dobra o desempenho (ou seja, a receita real das fábricas de IA) dos modelos Llama na plataforma NVIDIA Hopper. Ao executar o modelo DeepSeek-R1 em um grande cluster GB200 NVL72, a otimização de inferência inteligente usando NVIDIA Dynamo aumenta o número de tokens gerados por acelerador de tokens em mais de 30 vezes, disse a NVIDIA.

O NVIDIA Dynamo pode redistribuir dinamicamente cargas de trabalho entre aceleradores em resposta a alterações nos volumes e tipos de solicitações, e pode atribuir tarefas a aceleradores específicos em grandes clusters para ajudar a minimizar a computação de resposta e as solicitações de roteamento. A plataforma também pode descarregar dados de inferência para dispositivos de memória e armazenamento mais acessíveis e recuperá-los rapidamente quando necessário.

O NVIDIA Dynamo é totalmente de código aberto e oferece suporte a PyTorch, SGLang, NVIDIA TensorRT-LLM e vLLM, permitindo que os clientes desenvolvam e otimizem maneiras de executar modelos de IA dentro de inferência desagregada. De acordo com a NVIDIA, isso acelerará a adoção da solução em várias plataformas, incluindo AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta✴, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI e VAST.

O NVIDIA Dynamo distribui as informações que os sistemas de inferência armazenam na memória após o processamento de solicitações anteriores (cache KV) entre muitos aceleradores (até milhares). A plataforma então encaminha novas solicitações para os aceleradores cujos conteúdos de cache KV estão mais próximos da nova solicitação, evitando assim recomputações dispendiosas.

O NVIDIA Dynamo também fornece desagregação do processamento de solicitações recebidas, que despacha diferentes estágios da execução do LLM — da compreensão da solicitação à geração — para diferentes aceleradores. Essa abordagem é ideal para modelos de raciocínio. O atendimento desagregado permite que os recursos sejam configurados e alocados para cada fase de forma independente, proporcionando maior rendimento e resposta mais rápida às solicitações.

O NVIDIA Dynamo inclui quatro mecanismos principais:

GPU Planner: um mecanismo de agendamento que altera dinamicamente o número de aceleradores para atender às demandas variáveis, eliminando a possibilidade de provisionamento excessivo ou insuficiente de recursos.
Roteador inteligente: um roteador para LLM que distribui solicitações entre grandes grupos de aceleradores para minimizar recomputações caras de solicitações duplicadas ou sobrepostas, liberando recursos para lidar com novas solicitações.
Biblioteca de comunicação de baixa latência: uma biblioteca otimizada para inferência que oferece suporte à comunicação entre aceleradores e simplifica a comunicação entre dispositivos diferentes, acelerando a transferência de dados.
Gerenciador de memória: Um mecanismo que carrega, descarrega e distribui de forma transparente e inteligente dados de inferência entre dispositivos de memória e armazenamento.

A plataforma NVIDIA Dynamo estará disponível nos microsserviços NVIDIA NIM e terá suporte em uma versão futura da plataforma NVIDIA AI Enterprise.

“SO” para fábricas de IA: NVIDIA Dynamo irá acelerar a inferência e simplificar o dimensionamento de modelos de IA de raciocínio

Byavalanche

By avalanche

Veja Mais

As montadoras estão se preparando para uma nova escassez de chips após a aquisição holandesa da Nexperia.

The Legend of Khiimori chegará ao Steam Early Access mais tarde do que o esperado – é um simulador de entrega realista ambientado na Mongólia medieval.

O Google planeja testar novos smartphones Pixel com um grupo de entusiastas antes do anúncio.

Deixe um comentário Cancelar resposta