As entregas de servidores Nvidia GB200 AI ao preço de US$ 3 milhões estão em risco devido a vazamentos no sistema de suporte de vida

Um problema inesperado afetou os mais recentes sistemas de servidores GB200 NVL72 e NVL36 da Nvidia, que são equipados com os avançados aceleradores de computação GB200, projetados para aplicações de inteligência artificial. Pouco antes da produção em massa e do lançamento do produto, foi descoberto um sério problema no sistema de refrigeração líquida.

Fonte da imagem: NVIDIA

Lembremos que os sistemas GB200 NVL72 representam um rack de servidor inteiro com 18 nós 1U de uma só vez, cada um dos quais possui um par de aceleradores GB200, que, por sua vez, são um par de chips Nvidia B200 e um processador Arm Grace de 72 núcleos . No total, o sistema inclui 72 chips B200, 36 processadores Grace, conectados pelo barramento NVLink 5. Todo esse sistema consome cerca de 120 kW, está equipado com um sistema de suporte de vida e um único barramento de alimentação DC. Por sua vez, o sistema GB200 NVL36 é um sistema com metade do número do GB200. De acordo com dados preliminares, o sistema GB200 NVL72 custará US$ 3 milhões.

Conforme relata TweakTown com referência à publicação taiwanesa UDN, foram detectados vazamentos nos sistemas de refrigeração líquida GB200 NVL72, que, segundo dados preliminares, estão associados a componentes de fabricantes terceiros. Anteriormente, a Nvidia transferia a produção de alguns componentes do sistema de refrigeração, como tubos, conectores rápidos e mangueiras, para seus parceiros – grandes fabricantes internacionais.

Fonte da imagem: theregister.com

Os vazamentos foram descobertos antes do início da produção em massa dos sistemas NVL36 e NVL72 AI, dando aos fabricantes tempo para resolver os problemas e, apesar das dificuldades encontradas e da ameaça de atrasos nas datas de entrega aos principais clientes, espera-se que o produto seja entregue no prazo.

No entanto, o incidente levantou preocupações entre os principais provedores de serviços em nuvem, que temem a confiabilidade dos novos servidores da Nvidia. Em resposta à situação, fabricantes taiwaneses como Shuanghong e Qihong começaram a aumentar a produção de componentes de refrigeração líquida para fornecer opções alternativas à Nvidia.

A certificação de tubos, engates rápidos e mangueiras é um processo complexo que requer conhecimento e experiência especiais. Anteriormente, as empresas taiwanesas não se especializavam na produção de tais componentes, mas a decisão da Nvidia de utilizar refrigeração líquida nos seus chips de IA levou-as a desenvolver novas tecnologias. Atualmente, um trabalho ativo está em andamento para eliminar o problema. Espera-se que gabinetes de servidores com processadores GB200 e sistema de resfriamento corrigido comecem a ser enviados aos clientes em um futuro próximo.

avalanche

Postagens recentes

Blue Origin levou a centésima mulher da história ao espaço

A empresa aeroespacial Blue Origin conduziu com sucesso seu décimo voo suborbital, durante o qual…

4 horas atrás

O blogueiro mostrou como vencer Baldur’s Gate 3 sem fazer absolutamente nada na batalha

Baldur's Gate 3 está repleto de situações em que o sucesso de toda a missão…

5 horas atrás

Morte dos Reprovados: o que há de errado com a imagem? Análise

Malcolm Merda, e. Ó. O Senhor do Norte, estava muito cansado de enforcar e esquartejar…

5 horas atrás