Categorias: Laptops e netbooks

Chega de marcadores: a NVIDIA anunciou um novo software para monitorar e prolongar a vida útil de aceleradores de IA em data centers.

A NVIDIA está desenvolvendo um novo software de código aberto que permitirá aos operadores de data centers obter dados mais detalhados sobre o estado térmico e outros parâmetros operacionais de aceleradores de IA. Espera-se que isso ajude a solucionar problemas relacionados ao superaquecimento e à confiabilidade dos equipamentos, aumentando sua vida útil e desempenho. A NVIDIA enfatiza que a telemetria é coletada apenas em modo somente leitura, sem monitoramento de hardware, e que o software não contém “interruptores de segurança” ou portas traseiras. Além disso, o uso do novo software é totalmente opcional.

O software fornece aos operadores de data centers acesso ao monitoramento do consumo de energia, carga, largura de banda da memória e outros parâmetros importantes em toda a sua frota de aceleradores. Isso ajuda a identificar riscos e componentes problemáticos e condições operacionais em um estágio inicial, além de rastrear o uso, as configurações e os erros dos aceleradores de IA. A telemetria detalhada está se tornando cada vez mais importante para o planejamento e gerenciamento de infraestruturas de grande escala, segundo a empresa. O software permitirá:

Fonte da imagem: NVIDIA

Esse monitoramento é especialmente importante considerando um relatório recente de pesquisadores da Universidade de Princeton, que descobriu que cargas térmicas e elétricas intensas podem reduzir a vida útil dos chips de IA para um ou dois anos, enquanto a expectativa geral é de até três anos. Aceleradores modernos consomem 700 W ou mais, enquanto sistemas de alta densidade consomem 6 kW ou mais. Isso cria pontos quentes, flutuações no consumo de energia e aumenta o risco de degradação das interconexões em racks de alta densidade.

A telemetria, que permite a avaliação em tempo real do consumo de energia, do status das interconexões, dos sistemas de resfriamento a ar e de outros fatores, possibilita uma mudança do monitoramento reativo para o projeto proativo. As cargas de trabalho podem ser alocadas levando em consideração o gerenciamento térmico, sistemas de resfriamento líquido ou híbrido podem ser implementados mais rapidamente e a operação da rede pode ser otimizada para reduzir a dissipação de calor.

O software também pode ajudar os operadores de data centers a identificar erros ocultos causados ​​por versões inconsistentes de firmware ou drivers. Isso pode melhorar a estabilidade geral do conjunto de aceleradores. Além disso, a transmissão contínua de dados sobre erros e status de componentes pode reduzir significativamente o tempo médio de recuperação e simplificar a análise da causa raiz. Esses dados podem influenciar as decisões de investimento em infraestrutura e as estratégias de desenvolvimento em nível empresarial.

Fonte da imagem: NVIDIA

De acordo com a Gartner, a IA moderna é um “monstro faminto por energia e gerador de calor” que está transformando a economia e os princípios operacionais dos data centers. Como resultado, as empresas precisam de ferramentas especializadas de monitoramento e gerenciamento para evitar que a situação saia do controle. Nos próximos anos, o uso dessas soluções provavelmente se tornará obrigatório. Além disso, a visibilidade de toda a frota está se tornando essencial para justificar o aumento dos orçamentos para infraestrutura de IA.

Segundo especialistas, essas ferramentas de software permitem a otimização dos gastos de capital e operacionais com data centers e infraestrutura planejados para os próximos anos. “Cada dólar e cada watt” devem ser contabilizados no uso eficiente dos recursos.

Se você notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever um melhor? Ficaremos felizes em receber seu feedback.

Fontes:

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Lenovo estabeleceu um prazo limite para encomendas aos preços antigos; os preços irão aumentar ainda mais devido à escassez de memória.

A Lenovo notificou oficialmente seus parceiros sobre um aumento forçado de preços em diversas configurações…

26 minutos atrás

O mistério dos “bonecos de neve” na periferia do sistema solar foi resolvido após seis anos.

A primeira fotografia de um "boneco de neve" muito além da órbita de Netuno foi…

26 minutos atrás

A NASA definiu a próxima data para uma missão tripulada à Lua: 6 de março.

A NASA agendou a primeira missão tripulada à Lua para 6 de março. Ontem, 20…

4 horas atrás

Não apenas Cyberpunk 2077: jogos AAA para PC agora rodam em dispositivos Android potentes, mas com limitações.

A emulação de jogos de PC no Android está ganhando força e agora está acessível…

6 horas atrás

Não apenas Cyberpunk 2077: jogos AAA para PC agora rodam em dispositivos Android potentes, mas com limitações.

A emulação de jogos de PC no Android está ganhando força e agora está acessível…

6 horas atrás

A G42, sediada nos Emirados Árabes Unidos, e a Cerebras construirão um supercomputador nacional de IA na Índia com aceleradores WSE-3.

A G42 Holdings, uma holding sediada nos Emirados Árabes Unidos, e a Cerebras, em parceria…

8 horas atrás