Categorias: Laptops e netbooks

Chega de marcadores: a NVIDIA anunciou um novo software para monitorar e prolongar a vida útil de aceleradores de IA em data centers.

A NVIDIA está desenvolvendo um novo software de código aberto que permitirá aos operadores de data centers obter dados mais detalhados sobre o estado térmico e outros parâmetros operacionais de aceleradores de IA. Espera-se que isso ajude a solucionar problemas relacionados ao superaquecimento e à confiabilidade dos equipamentos, aumentando sua vida útil e desempenho. A NVIDIA enfatiza que a telemetria é coletada apenas em modo somente leitura, sem monitoramento de hardware, e que o software não contém “interruptores de segurança” ou portas traseiras. Além disso, o uso do novo software é totalmente opcional.

O software fornece aos operadores de data centers acesso ao monitoramento do consumo de energia, carga, largura de banda da memória e outros parâmetros importantes em toda a sua frota de aceleradores. Isso ajuda a identificar riscos e componentes problemáticos e condições operacionais em um estágio inicial, além de rastrear o uso, as configurações e os erros dos aceleradores de IA. A telemetria detalhada está se tornando cada vez mais importante para o planejamento e gerenciamento de infraestruturas de grande escala, segundo a empresa. O software permitirá:

Fonte da imagem: NVIDIA

Esse monitoramento é especialmente importante considerando um relatório recente de pesquisadores da Universidade de Princeton, que descobriu que cargas térmicas e elétricas intensas podem reduzir a vida útil dos chips de IA para um ou dois anos, enquanto a expectativa geral é de até três anos. Aceleradores modernos consomem 700 W ou mais, enquanto sistemas de alta densidade consomem 6 kW ou mais. Isso cria pontos quentes, flutuações no consumo de energia e aumenta o risco de degradação das interconexões em racks de alta densidade.

A telemetria, que permite a avaliação em tempo real do consumo de energia, do status das interconexões, dos sistemas de resfriamento a ar e de outros fatores, possibilita uma mudança do monitoramento reativo para o projeto proativo. As cargas de trabalho podem ser alocadas levando em consideração o gerenciamento térmico, sistemas de resfriamento líquido ou híbrido podem ser implementados mais rapidamente e a operação da rede pode ser otimizada para reduzir a dissipação de calor.

O software também pode ajudar os operadores de data centers a identificar erros ocultos causados ​​por versões inconsistentes de firmware ou drivers. Isso pode melhorar a estabilidade geral do conjunto de aceleradores. Além disso, a transmissão contínua de dados sobre erros e status de componentes pode reduzir significativamente o tempo médio de recuperação e simplificar a análise da causa raiz. Esses dados podem influenciar as decisões de investimento em infraestrutura e as estratégias de desenvolvimento em nível empresarial.

Fonte da imagem: NVIDIA

De acordo com a Gartner, a IA moderna é um “monstro faminto por energia e gerador de calor” que está transformando a economia e os princípios operacionais dos data centers. Como resultado, as empresas precisam de ferramentas especializadas de monitoramento e gerenciamento para evitar que a situação saia do controle. Nos próximos anos, o uso dessas soluções provavelmente se tornará obrigatório. Além disso, a visibilidade de toda a frota está se tornando essencial para justificar o aumento dos orçamentos para infraestrutura de IA.

Segundo especialistas, essas ferramentas de software permitem a otimização dos gastos de capital e operacionais com data centers e infraestrutura planejados para os próximos anos. “Cada dólar e cada watt” devem ser contabilizados no uso eficiente dos recursos.

Se você notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever um melhor? Ficaremos felizes em receber seu feedback.

Fontes:

admin

Compartilhar
Publicado por
admin

Postagens recentes

O iPhone Air acabou sendo muito mais popular que o iPhone 16 Plus, e o modem Apple C1X quase alcançou os análogos da Qualcomm

\nO Apple iPhone Air no período de lançamento comparável revelou-se aproximadamente duas vezes mais popular…

47 minutos atrás

Após uma onda de críticas, a desenvolvedora de Crimson Desert prometeu adicionar suporte para placas gráficas Intel Arc.

A Pearl Abyss mudou sua posição em relação ao suporte para placas de vídeo Intel…

58 minutos atrás

A ASRock Industrial lança a estação de trabalho compacta AI Box-A395 baseada no AMD Ryzen AI Max.

A ASRock Industrial anunciou a workstation compacta AI Box-A395, projetada para trabalhar com grandes modelos…

1 hora atrás

O mini PC ASUS ExpertCenter PN55 possui um chip AMD Ryzen AI 400 com desempenho de IA de até 91 TOPS.

A ASUS anunciou o ExpertCenter PN55, um desktop de formato compacto projetado para uso empresarial.…

1 hora atrás

A Intel admitiu que seus novos processadores Core Ultra Plus para desktops não são praticamente mais rápidos que os Ryzen em jogos.

A Intel comparou o desempenho em jogos dos processadores Core Ultra 5 250K Plus e…

2 horas atrás

O mercado global de chips cresceu para US$ 831 bilhões no ano passado, e a Nvidia não foi a que mais lucrou.

É difícil contestar o fato de que, entre os fabricantes de hardware, a Nvidia é…

2 horas atrás