Categorias: Laptops e netbooks

Chega de marcadores: a NVIDIA anunciou um novo software para monitorar e prolongar a vida útil de aceleradores de IA em data centers.

A NVIDIA está desenvolvendo um novo software de código aberto que permitirá aos operadores de data centers obter dados mais detalhados sobre o estado térmico e outros parâmetros operacionais de aceleradores de IA. Espera-se que isso ajude a solucionar problemas relacionados ao superaquecimento e à confiabilidade dos equipamentos, aumentando sua vida útil e desempenho. A NVIDIA enfatiza que a telemetria é coletada apenas em modo somente leitura, sem monitoramento de hardware, e que o software não contém “interruptores de segurança” ou portas traseiras. Além disso, o uso do novo software é totalmente opcional.

O software fornece aos operadores de data centers acesso ao monitoramento do consumo de energia, carga, largura de banda da memória e outros parâmetros importantes em toda a sua frota de aceleradores. Isso ajuda a identificar riscos e componentes problemáticos e condições operacionais em um estágio inicial, além de rastrear o uso, as configurações e os erros dos aceleradores de IA. A telemetria detalhada está se tornando cada vez mais importante para o planejamento e gerenciamento de infraestruturas de grande escala, segundo a empresa. O software permitirá:

Fonte da imagem: NVIDIA

Esse monitoramento é especialmente importante considerando um relatório recente de pesquisadores da Universidade de Princeton, que descobriu que cargas térmicas e elétricas intensas podem reduzir a vida útil dos chips de IA para um ou dois anos, enquanto a expectativa geral é de até três anos. Aceleradores modernos consomem 700 W ou mais, enquanto sistemas de alta densidade consomem 6 kW ou mais. Isso cria pontos quentes, flutuações no consumo de energia e aumenta o risco de degradação das interconexões em racks de alta densidade.

A telemetria, que permite a avaliação em tempo real do consumo de energia, do status das interconexões, dos sistemas de resfriamento a ar e de outros fatores, possibilita uma mudança do monitoramento reativo para o projeto proativo. As cargas de trabalho podem ser alocadas levando em consideração o gerenciamento térmico, sistemas de resfriamento líquido ou híbrido podem ser implementados mais rapidamente e a operação da rede pode ser otimizada para reduzir a dissipação de calor.

O software também pode ajudar os operadores de data centers a identificar erros ocultos causados ​​por versões inconsistentes de firmware ou drivers. Isso pode melhorar a estabilidade geral do conjunto de aceleradores. Além disso, a transmissão contínua de dados sobre erros e status de componentes pode reduzir significativamente o tempo médio de recuperação e simplificar a análise da causa raiz. Esses dados podem influenciar as decisões de investimento em infraestrutura e as estratégias de desenvolvimento em nível empresarial.

Fonte da imagem: NVIDIA

De acordo com a Gartner, a IA moderna é um “monstro faminto por energia e gerador de calor” que está transformando a economia e os princípios operacionais dos data centers. Como resultado, as empresas precisam de ferramentas especializadas de monitoramento e gerenciamento para evitar que a situação saia do controle. Nos próximos anos, o uso dessas soluções provavelmente se tornará obrigatório. Além disso, a visibilidade de toda a frota está se tornando essencial para justificar o aumento dos orçamentos para infraestrutura de IA.

Segundo especialistas, essas ferramentas de software permitem a otimização dos gastos de capital e operacionais com data centers e infraestrutura planejados para os próximos anos. “Cada dólar e cada watt” devem ser contabilizados no uso eficiente dos recursos.

Se você notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever um melhor? Ficaremos felizes em receber seu feedback.

Fontes:

admin

Compartilhar
Publicado por
admin

Postagens recentes

O mercado de SSDs para consumidores praticamente evaporou, afirma o CEO da Silicon Motion.

O mercado consumidor de SSD praticamente desapareceu no primeiro semestre de 2026, de acordo com…

2 horas atrás

Nvidia atualizou drivers para placas de vídeo desatualizadas em Maxwell, Pascal e Volta

\nA Nvidia lançou o driver GeForce 582.66 WHQL para GPUs GeForce mais antigas baseadas nas…

2 horas atrás

O Google lançou o Android 17, trazendo um limitador de RAM, bolhas de aplicativos e outras melhorias.

O Google lançou o Android 17, com os dispositivos Pixel sendo os primeiros a receber…

4 horas atrás

A Nvidia lançou um driver com suporte para o jogo de tiro em equipe Empulse.

A Nvidia lançou a versão mais recente do driver gráfico GeForce Game Ready 610.62 WHQL,…

4 horas atrás

A Qualcomm apresentou o processador Snapdragon Reality Elite para óculos inteligentes, headsets de realidade aumentada e realidade estendida.

Na Augmented World Expo (AWE), a Qualcomm apresentou o processador Snapdragon Reality Elite, projetado para…

4 horas atrás