A NVIDIA lançou uma plataforma gerenciada, o Fleet Intelligence, projetada para monitorar a integridade de grandes clusters de aceleradores usados em infraestrutura de IA. O serviço já está disponível gratuitamente para clientes que utilizam produtos NVIDIA baseados nas famílias de aceleradores Hopper, Blackwell e VeraRubin. A NVIDIA posiciona a plataforma como uma camada independente de telemetria e monitoramento, permitindo o acompanhamento de ambientes de infraestrutura heterogêneos, independentemente da pilha de orquestração ou do agendador de tarefas.
A plataforma utiliza um agente leve, integrado ao host, que transmite telemetria dos aceleradores de IA para o serviço em nuvem Fleet Intelligence, que opera dentro do ecossistema da plataforma NGC (NVIDIA GPU Cloud). O agente aproveita diversas tecnologias NVIDIA, incluindo o serviço de monitoramento de aceleradores (GPUd), a ferramenta de gerenciamento e diagnóstico de chips DCGM (NVIDIA Data Center GPU Manager) e a ferramenta de verificação de integridade de hardware e software NVIDIA Attestation SDK.
A empresa também disponibilizou o código do agente Fleet Intelligence no GitHub, permitindo que os operadores de infraestrutura de IA avaliem seus mecanismos de telemetria de forma independente. O Fleet Intelligence coleta dados sobre a utilização do acelerador, largura de banda da memória, consumo de energia do sistema, status da interconexão NVLink, temperatura do sistema, erros ECC e indicadores de integridade do hardware. Isso ajuda os operadores de data centers a identificar precocemente recursos subutilizados e erros, reduzindo o tempo de inatividade em grandes clusters de IA.

Fonte da imagem: NVIDIA
Uma das principais funcionalidades da plataforma é a sua capacidade de verificação e atestação de integridade, baseada nas tecnologias de Computação Confidencial da NVIDIA. O Fleet Intelligence valida criptograficamente a integridade do firmware e do tempo de execução dos aceleradores de IA usando certificados raiz de confiança da NVIDIA e o Serviço de Atestação Remota da NVIDIA (NRAS). A plataforma pode confirmar se os aceleradores estão executando firmware aprovado e utilizar Manifestos de Integridade de Referência vinculados a versões específicas da vBIOS.

Segundo a NVIDIA, o Fleet Intelligence foi desenvolvido com base na experiência operacional da plataforma DGX Cloud da NVIDIA, que utilizou centenas de milhares de aceleradores de IA. Entre os usuários corporativos que receberam acesso antecipado à plataforma estão a Lambda e a Iren, ambas as quais forneceram feedback ao longo do processo de desenvolvimento. O lançamento do Fleet Intelligence demonstra que as ambições da NVIDIA vão muito além do simples desenvolvimento de aceleradores de IA; a empresa também está desenvolvendo software e ferramentas de gerenciamento para fábricas de IA. Isso complementa o portfólio existente da empresa, que inclui sistemas DGX, interconexões NVLink, produtos de rede Spectrum-X, a plataforma de orquestração Mission Control e soluções de computação segura.

A adição de telemetria em larga escala e análise preditiva reflete a crescente demanda de hiperescaladores e clientes corporativos por máxima utilização dos recursos do acelerador. Além disso, o lançamento da plataforma reflete o aumento da concorrência no mercado de monitoramento e operações de infraestrutura de IA. Operadores de nuvem e outras empresas, incluindo AMD, Intel e outras, estão construindo suas próprias plataformas para telemetria, diagnóstico e gerenciamento de grandes clusters de IA. A capacidade da NVIDIA de integrar telemetria de hardware, testes de confiabilidade de firmware e análise operacional diretamente na pilha de infraestrutura fortalece a posição da empresa como fornecedora de infraestrutura de IA verticalmente integrada.
Se você encontrar um erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever uma versão melhor? Ficaremos felizes em receber seu feedback.
Fonte: