As entregas de servidores Nvidia GB200 AI ao preço de US$ 3 milhões estão em risco devido a vazamentos no sistema de suporte de vida

Um problema inesperado afetou os mais recentes sistemas de servidores GB200 NVL72 e NVL36 da Nvidia, que são equipados com os avançados aceleradores de computação GB200, projetados para aplicações de inteligência artificial. Pouco antes da produção em massa e do lançamento do produto, foi descoberto um sério problema no sistema de refrigeração líquida.

Fonte da imagem: NVIDIA

Lembremos que os sistemas GB200 NVL72 representam um rack de servidor inteiro com 18 nós 1U de uma só vez, cada um dos quais possui um par de aceleradores GB200, que, por sua vez, são um par de chips Nvidia B200 e um processador Arm Grace de 72 núcleos . No total, o sistema inclui 72 chips B200, 36 processadores Grace, conectados pelo barramento NVLink 5. Todo esse sistema consome cerca de 120 kW, está equipado com um sistema de suporte de vida e um único barramento de alimentação DC. Por sua vez, o sistema GB200 NVL36 é um sistema com metade do número do GB200. De acordo com dados preliminares, o sistema GB200 NVL72 custará US$ 3 milhões.

Conforme relata TweakTown com referência à publicação taiwanesa UDN, foram detectados vazamentos nos sistemas de refrigeração líquida GB200 NVL72, que, segundo dados preliminares, estão associados a componentes de fabricantes terceiros. Anteriormente, a Nvidia transferia a produção de alguns componentes do sistema de refrigeração, como tubos, conectores rápidos e mangueiras, para seus parceiros – grandes fabricantes internacionais.

Fonte da imagem: theregister.com

Os vazamentos foram descobertos antes do início da produção em massa dos sistemas NVL36 e NVL72 AI, dando aos fabricantes tempo para resolver os problemas e, apesar das dificuldades encontradas e da ameaça de atrasos nas datas de entrega aos principais clientes, espera-se que o produto seja entregue no prazo.

No entanto, o incidente levantou preocupações entre os principais provedores de serviços em nuvem, que temem a confiabilidade dos novos servidores da Nvidia. Em resposta à situação, fabricantes taiwaneses como Shuanghong e Qihong começaram a aumentar a produção de componentes de refrigeração líquida para fornecer opções alternativas à Nvidia.

A certificação de tubos, engates rápidos e mangueiras é um processo complexo que requer conhecimento e experiência especiais. Anteriormente, as empresas taiwanesas não se especializavam na produção de tais componentes, mas a decisão da Nvidia de utilizar refrigeração líquida nos seus chips de IA levou-as a desenvolver novas tecnologias. Atualmente, um trabalho ativo está em andamento para eliminar o problema. Espera-se que gabinetes de servidores com processadores GB200 e sistema de resfriamento corrigido comecem a ser enviados aos clientes em um futuro próximo.

avalanche

Postagens recentes

Encontrou uma maneira barata de produzir telas OLED transparentes usando nanopartículas

Cientistas coreanos desenvolveram a tecnologia NTS para a produção de telas OLED transparentes de grande…

59 minutos atrás

O blogueiro mostrou quais truques Larian usou para salvar os jogadores de Baldur’s Gate 3 de sua própria estupidez

O Blogger Proxy Gate Tactician com 1400 horas em Baldur's Gate 3 decidiu verificar quais…

2 horas atrás

Ubisoft explicou porque não tem medo de GTA VI

O thriller policial de mundo aberto Grand Theft Auto VI inspira medo nos concorrentes antes…

3 horas atrás

Eve apresentou um protótipo de táxi aéreo elétrico em tamanho real

A fabricante de aeronaves elétricas Eve, uma subsidiária da Embraer, revelou um protótipo de táxi…

4 horas atrás