Categorias: Mercado de tecnologia e TI. notícia

“SO” para fábricas de IA: NVIDIA Dynamo irá acelerar a inferência e simplificar o dimensionamento de modelos de IA de raciocínio

A NVIDIA anunciou hoje o NVIDIA Dynamo, o sucessor do NVIDIA Triton Inference Server, um ambiente de software de código aberto para desenvolvedores que acelera a inferência e facilita o dimensionamento de modelos de IA de raciocínio em fábricas de IA com sobrecarga mínima e eficiência máxima. O CEO da NVIDIA, Jensen Huang, chamou o Dynamo de “um sistema operacional para fábricas de IA”.

O NVIDIA Dynamo melhora o desempenho de inferência ao mesmo tempo que reduz o custo de dimensionamento da computação durante os testes. Ao otimizar a inferência no NVIDIA Blackwell, a plataforma aumenta drasticamente o desempenho do modelo de IA de raciocínio DeepSeek-R1.

Fonte da imagem: NVIDIA

Projetada para maximizar a receita de tokens para data centers de IA, a plataforma NVIDIA Dynamo orquestra e acelera as comunicações de inferência em milhares de aceleradores e usa processamento de dados desagregados para separar as fases de processamento e geração de modelos de grandes linguagens (LLMs) em todos os aceleradores. Isso permite que cada fase seja otimizada independentemente de suas necessidades específicas e garante a utilização máxima dos recursos de computação.

Com o mesmo número de aceleradores, o Dynamo dobra o desempenho (ou seja, a receita real das fábricas de IA) dos modelos Llama na plataforma NVIDIA Hopper. Ao executar o modelo DeepSeek-R1 em um grande cluster GB200 NVL72, a otimização de inferência inteligente usando NVIDIA Dynamo aumenta o número de tokens gerados por acelerador de tokens em mais de 30 vezes, disse a NVIDIA.

O NVIDIA Dynamo pode redistribuir dinamicamente cargas de trabalho entre aceleradores em resposta a alterações nos volumes e tipos de solicitações, e pode atribuir tarefas a aceleradores específicos em grandes clusters para ajudar a minimizar a computação de resposta e as solicitações de roteamento. A plataforma também pode descarregar dados de inferência para dispositivos de memória e armazenamento mais acessíveis e recuperá-los rapidamente quando necessário.

O NVIDIA Dynamo é totalmente de código aberto e oferece suporte a PyTorch, SGLang, NVIDIA TensorRT-LLM e vLLM, permitindo que os clientes desenvolvam e otimizem maneiras de executar modelos de IA dentro de inferência desagregada. De acordo com a NVIDIA, isso acelerará a adoção da solução em várias plataformas, incluindo AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta✴, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI e VAST.

O NVIDIA Dynamo distribui as informações que os sistemas de inferência armazenam na memória após o processamento de solicitações anteriores (cache KV) entre muitos aceleradores (até milhares). A plataforma então encaminha novas solicitações para os aceleradores cujos conteúdos de cache KV estão mais próximos da nova solicitação, evitando assim recomputações dispendiosas.

O NVIDIA Dynamo também fornece desagregação do processamento de solicitações recebidas, que despacha diferentes estágios da execução do LLM — da compreensão da solicitação à geração — para diferentes aceleradores. Essa abordagem é ideal para modelos de raciocínio. O atendimento desagregado permite que os recursos sejam configurados e alocados para cada fase de forma independente, proporcionando maior rendimento e resposta mais rápida às solicitações.

O NVIDIA Dynamo inclui quatro mecanismos principais:

GPU Planner: um mecanismo de agendamento que altera dinamicamente o número de aceleradores para atender às demandas variáveis, eliminando a possibilidade de provisionamento excessivo ou insuficiente de recursos.
Roteador inteligente: um roteador para LLM que distribui solicitações entre grandes grupos de aceleradores para minimizar recomputações caras de solicitações duplicadas ou sobrepostas, liberando recursos para lidar com novas solicitações.
Biblioteca de comunicação de baixa latência: uma biblioteca otimizada para inferência que oferece suporte à comunicação entre aceleradores e simplifica a comunicação entre dispositivos diferentes, acelerando a transferência de dados.
Gerenciador de memória: Um mecanismo que carrega, descarrega e distribui de forma transparente e inteligente dados de inferência entre dispositivos de memória e armazenamento.

A plataforma NVIDIA Dynamo estará disponível nos microsserviços NVIDIA NIM e terá suporte em uma versão futura da plataforma NVIDIA AI Enterprise.

avalanche

Próximo Painkiller retorna como um jogo de ação dinâmico com modo cooperativo para três jogadores - Trailer e detalhes do relançamento »

Anterior « Cientistas criam fones de ouvido invisíveis: tecnologia de enclave de áudio baseada em ultrassom revelada

Deixar comentário

Publicado por

avalanche

11 meses atrás

Postagens recentes

Laptops e netbooks

Apple lançará MacBook acessível em ‘cores vibrantes’ – Apresentado em março

Há muito tempo circulam rumores de que a Apple está trabalhando em um novo MacBook…

19 minutos atrás

Programas

A Apple está otimizando o código e a interface do iOS 27 para melhorar a duração da bateria do dispositivo.

Segundo fontes online, a Apple está trabalhando na otimização do código-fonte, na atualização de aplicativos…

1 hora atrás

Jogos

O jogo de tiro com temática de evacuação Marathon não terá o sistema de matchmaking para raides de Arc Raiders, que separa jogadores agressivos de jogadores pacíficos.

Antes do lançamento do jogo de tiro de ficção científica com temática de evacuação, Marathon,…

4 horas atrás

Discos rígidos, sistemas de armazenamento, interfaces, NAS

A Western Digital esgotou sua capacidade de produção de discos rígidos — tudo foi absorvido pela inteligência artificial.

A Western Digital, uma das maiores fabricantes de HDDs do mundo, anunciou uma escassez de…

4 horas atrás

Consoles de jogos

A Sony começou a oferecer consoles PlayStation 5 em regime de aluguel mensal.

A PlayStation UK anunciou o lançamento de um programa de aluguel do console PlayStation 5.…

6 horas atrás

Laptops e netbooks

A Acer e a Asus suspenderam as vendas de PCs na Alemanha devido a uma disputa de patentes com a Nokia.

A Acer e a Asus suspenderam temporariamente a venda de computadores desktop e laptops na…