Um problema inesperado afetou os mais recentes sistemas de servidores GB200 NVL72 e NVL36 da Nvidia, que são equipados com os avançados aceleradores de computação GB200, projetados para aplicações de inteligência artificial. Pouco antes da produção em massa e do lançamento do produto, foi descoberto um sério problema no sistema de refrigeração líquida.
Lembremos que os sistemas GB200 NVL72 representam um rack de servidor inteiro com 18 nós 1U de uma só vez, cada um dos quais possui um par de aceleradores GB200, que, por sua vez, são um par de chips Nvidia B200 e um processador Arm Grace de 72 núcleos . No total, o sistema inclui 72 chips B200, 36 processadores Grace, conectados pelo barramento NVLink 5. Todo esse sistema consome cerca de 120 kW, está equipado com um sistema de suporte de vida e um único barramento de alimentação DC. Por sua vez, o sistema GB200 NVL36 é um sistema com metade do número do GB200. De acordo com dados preliminares, o sistema GB200 NVL72 custará US$ 3 milhões.
Conforme relata TweakTown com referência à publicação taiwanesa UDN, foram detectados vazamentos nos sistemas de refrigeração líquida GB200 NVL72, que, segundo dados preliminares, estão associados a componentes de fabricantes terceiros. Anteriormente, a Nvidia transferia a produção de alguns componentes do sistema de refrigeração, como tubos, conectores rápidos e mangueiras, para seus parceiros – grandes fabricantes internacionais.
Os vazamentos foram descobertos antes do início da produção em massa dos sistemas NVL36 e NVL72 AI, dando aos fabricantes tempo para resolver os problemas e, apesar das dificuldades encontradas e da ameaça de atrasos nas datas de entrega aos principais clientes, espera-se que o produto seja entregue no prazo.
No entanto, o incidente levantou preocupações entre os principais provedores de serviços em nuvem, que temem a confiabilidade dos novos servidores da Nvidia. Em resposta à situação, fabricantes taiwaneses como Shuanghong e Qihong começaram a aumentar a produção de componentes de refrigeração líquida para fornecer opções alternativas à Nvidia.
A certificação de tubos, engates rápidos e mangueiras é um processo complexo que requer conhecimento e experiência especiais. Anteriormente, as empresas taiwanesas não se especializavam na produção de tais componentes, mas a decisão da Nvidia de utilizar refrigeração líquida nos seus chips de IA levou-as a desenvolver novas tecnologias. Atualmente, um trabalho ativo está em andamento para eliminar o problema. Espera-se que gabinetes de servidores com processadores GB200 e sistema de resfriamento corrigido comecem a ser enviados aos clientes em um futuro próximo.
A empresa aeroespacial Blue Origin conduziu com sucesso seu décimo voo suborbital, durante o qual…
Após uma série de atrasos, a Microsoft começou a lançar seu recurso AI Recall no…
A ZTE lançou um smartphone barato Nubia V70 Design. Em alguns mercados, o dispositivo será…
Baldur's Gate 3 está repleto de situações em que o sucesso de toda a missão…
Malcolm Merda, e. Ó. O Senhor do Norte, estava muito cansado de enforcar e esquartejar…
A Nvidia depende fortemente de alguns de seus maiores clientes, que compram ativamente aceleradores de…