A NVIDIA está desenvolvendo um novo software de código aberto que permitirá aos operadores de data centers obter dados mais detalhados sobre o estado térmico e outros parâmetros operacionais de aceleradores de IA. Espera-se que isso ajude a solucionar problemas relacionados ao superaquecimento e à confiabilidade dos equipamentos, aumentando sua vida útil e desempenho. A NVIDIA enfatiza que a telemetria é coletada apenas em modo somente leitura, sem monitoramento de hardware, e que o software não contém “interruptores de segurança” ou portas traseiras. Além disso, o uso do novo software é totalmente opcional.
O software fornece aos operadores de data centers acesso ao monitoramento do consumo de energia, carga, largura de banda da memória e outros parâmetros importantes em toda a sua frota de aceleradores. Isso ajuda a identificar riscos e componentes problemáticos e condições operacionais em um estágio inicial, além de rastrear o uso, as configurações e os erros dos aceleradores de IA. A telemetria detalhada está se tornando cada vez mais importante para o planejamento e gerenciamento de infraestruturas de grande escala, segundo a empresa. O software permitirá:
Fonte da imagem: NVIDIA
Esse monitoramento é especialmente importante considerando um relatório recente de pesquisadores da Universidade de Princeton, que descobriu que cargas térmicas e elétricas intensas podem reduzir a vida útil dos chips de IA para um ou dois anos, enquanto a expectativa geral é de até três anos. Aceleradores modernos consomem 700 W ou mais, enquanto sistemas de alta densidade consomem 6 kW ou mais. Isso cria pontos quentes, flutuações no consumo de energia e aumenta o risco de degradação das interconexões em racks de alta densidade.
A telemetria, que permite a avaliação em tempo real do consumo de energia, do status das interconexões, dos sistemas de resfriamento a ar e de outros fatores, possibilita uma mudança do monitoramento reativo para o projeto proativo. As cargas de trabalho podem ser alocadas levando em consideração o gerenciamento térmico, sistemas de resfriamento líquido ou híbrido podem ser implementados mais rapidamente e a operação da rede pode ser otimizada para reduzir a dissipação de calor.
O software também pode ajudar os operadores de data centers a identificar erros ocultos causados por versões inconsistentes de firmware ou drivers. Isso pode melhorar a estabilidade geral do conjunto de aceleradores. Além disso, a transmissão contínua de dados sobre erros e status de componentes pode reduzir significativamente o tempo médio de recuperação e simplificar a análise da causa raiz. Esses dados podem influenciar as decisões de investimento em infraestrutura e as estratégias de desenvolvimento em nível empresarial.
Fonte da imagem: NVIDIA
De acordo com a Gartner, a IA moderna é um “monstro faminto por energia e gerador de calor” que está transformando a economia e os princípios operacionais dos data centers. Como resultado, as empresas precisam de ferramentas especializadas de monitoramento e gerenciamento para evitar que a situação saia do controle. Nos próximos anos, o uso dessas soluções provavelmente se tornará obrigatório. Além disso, a visibilidade de toda a frota está se tornando essencial para justificar o aumento dos orçamentos para infraestrutura de IA.
Segundo especialistas, essas ferramentas de software permitem a otimização dos gastos de capital e operacionais com data centers e infraestrutura planejados para os próximos anos. “Cada dólar e cada watt” devem ser contabilizados no uso eficiente dos recursos.
Se você notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever um melhor? Ficaremos felizes em receber seu feedback.
Fontes:
A Framework, fabricante de laptops modulares, aumentou em 50% os preços dos módulos de memória…
O presidente dos EUA, Donald Trump, assinou uma ordem executiva estabelecendo um sistema unificado de…
O Yandex Maps agora conta com um chatbot baseado na inteligência artificial Alice AI. Para…
Até o momento, os subsídios para a indústria chinesa de semicondutores têm sido implementados de…
A desenvolvedora Neon Giant (The Ascent), com o apoio da editora Krafton, anunciou No Law,…
A Corsair revelou uma coleção de periféricos inspirados na marca fictícia Nuka Cola do universo…