Categorias: Laptops e netbooks

Chega de marcadores: a NVIDIA anunciou um novo software para monitorar e prolongar a vida útil de aceleradores de IA em data centers.

A NVIDIA está desenvolvendo um novo software de código aberto que permitirá aos operadores de data centers obter dados mais detalhados sobre o estado térmico e outros parâmetros operacionais de aceleradores de IA. Espera-se que isso ajude a solucionar problemas relacionados ao superaquecimento e à confiabilidade dos equipamentos, aumentando sua vida útil e desempenho. A NVIDIA enfatiza que a telemetria é coletada apenas em modo somente leitura, sem monitoramento de hardware, e que o software não contém “interruptores de segurança” ou portas traseiras. Além disso, o uso do novo software é totalmente opcional.

O software fornece aos operadores de data centers acesso ao monitoramento do consumo de energia, carga, largura de banda da memória e outros parâmetros importantes em toda a sua frota de aceleradores. Isso ajuda a identificar riscos e componentes problemáticos e condições operacionais em um estágio inicial, além de rastrear o uso, as configurações e os erros dos aceleradores de IA. A telemetria detalhada está se tornando cada vez mais importante para o planejamento e gerenciamento de infraestruturas de grande escala, segundo a empresa. O software permitirá:

Fonte da imagem: NVIDIA

Esse monitoramento é especialmente importante considerando um relatório recente de pesquisadores da Universidade de Princeton, que descobriu que cargas térmicas e elétricas intensas podem reduzir a vida útil dos chips de IA para um ou dois anos, enquanto a expectativa geral é de até três anos. Aceleradores modernos consomem 700 W ou mais, enquanto sistemas de alta densidade consomem 6 kW ou mais. Isso cria pontos quentes, flutuações no consumo de energia e aumenta o risco de degradação das interconexões em racks de alta densidade.

A telemetria, que permite a avaliação em tempo real do consumo de energia, do status das interconexões, dos sistemas de resfriamento a ar e de outros fatores, possibilita uma mudança do monitoramento reativo para o projeto proativo. As cargas de trabalho podem ser alocadas levando em consideração o gerenciamento térmico, sistemas de resfriamento líquido ou híbrido podem ser implementados mais rapidamente e a operação da rede pode ser otimizada para reduzir a dissipação de calor.

O software também pode ajudar os operadores de data centers a identificar erros ocultos causados ​​por versões inconsistentes de firmware ou drivers. Isso pode melhorar a estabilidade geral do conjunto de aceleradores. Além disso, a transmissão contínua de dados sobre erros e status de componentes pode reduzir significativamente o tempo médio de recuperação e simplificar a análise da causa raiz. Esses dados podem influenciar as decisões de investimento em infraestrutura e as estratégias de desenvolvimento em nível empresarial.

Fonte da imagem: NVIDIA

De acordo com a Gartner, a IA moderna é um “monstro faminto por energia e gerador de calor” que está transformando a economia e os princípios operacionais dos data centers. Como resultado, as empresas precisam de ferramentas especializadas de monitoramento e gerenciamento para evitar que a situação saia do controle. Nos próximos anos, o uso dessas soluções provavelmente se tornará obrigatório. Além disso, a visibilidade de toda a frota está se tornando essencial para justificar o aumento dos orçamentos para infraestrutura de IA.

Segundo especialistas, essas ferramentas de software permitem a otimização dos gastos de capital e operacionais com data centers e infraestrutura planejados para os próximos anos. “Cada dólar e cada watt” devem ser contabilizados no uso eficiente dos recursos.

Se você notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever um melhor? Ficaremos felizes em receber seu feedback.

Fontes:

admin

Compartilhar
Publicado por
admin

Postagens recentes

A IA com “olhos” acabou sendo várias vezes mais cara do que uma API comum — os agentes estão consumindo todo o orçamento visitando sites.

Empresas que utilizam agentes de inteligência artificial podem gastar significativamente mais dinheiro se esses agentes…

2 horas atrás

O “Perfil de Baixa Latência” acelerará o Windows 11, mas o processador terá que trabalhar em velocidade máxima por curtos períodos de tempo.

O Windows 11 introduzirá um novo recurso chamado "Perfil de Baixa Latência", que aumentará a…

2 horas atrás

A IBM chegou a querer eliminar a tecla Tab para navegação, mas a Microsoft discordou, citando a mãe de Bill Gates.

Muito antes da tecla Copilot ou mesmo do Windows aparecerem nos teclados, a Microsoft e…

2 horas atrás

A Apple encomendará um novo lote de chips A18 Pro devido à alta demanda pelo MacBook Neo.

O MacBook Neo, com seu preço acessível, tornou-se um verdadeiro sucesso – a Apple mencionou…

2 horas atrás

O CEO da Take-Two assume a culpa pelos fracassos de Sid Meier’s Civilization VII, e a atualização Test of Time corrigirá o principal problema do jogo.

Strauss Zelnick, CEO da Take-Two Interactive, comentou sobre os fracassos do jogo de estratégia global…

3 horas atrás

A União Europeia quer impedir que nuvens americanas tenham acesso a dados governamentais confidenciais.

A União Europeia está considerando medidas legais que restringem o processamento de dados confidenciais da…

3 horas atrás