Departamento de Energia dos EUA revela má manutenção do supercomputador exaescala Frontier

O Escritório do Inspetor Geral (OIG) do Departamento de Energia dos EUA inspecionou o data center do Laboratório Nacional de Oak Ridge, que abriga supercomputadores avançados, incluindo o primeiro sistema exascale do mundo, o Frontier. Segundo o The Register, os resultados deixam muito a desejar.

Em setembro passado, o EIG recebeu uma declaração sobre a necessidade de verificar a qualidade do serviço e calibração de equipamentos (principalmente sensores de temperatura e automação de sistemas de refrigeração) no laboratório localizado no Tennessee. O laboratório está envolvido em projetos na área de energia nuclear e segurança nacional. O relatório de auditoria está relacionado ao data center em Oak Ridge. Um dos campi abriga o Oak Ridge Leadership Computing Facility (OLCF), que opera o supercomputador Frontier.

Foto de : ORNL

A fiscalização foi realizada de janeiro a setembro de 2023 e confirmou os dados do pedido recebido pelo regulador. De acordo com o relatório do EIG, a declaração afirmava que o programa de calibração não estava de acordo com os padrões e que as válvulas de alívio de pressão (PRVs) no data center não eram mantidas ou eram mal mantidas. A falha das válvulas pode fazer com que a pressão suba acima dos limites aceitáveis, podendo causar danos ao equipamento e ao pessoal. Como a infra-estrutura não foi mantida adequadamente, poderia limitar a disponibilidade de recursos computacionais e comprometer os objectivos da missão do laboratório, disse o EIG.

O poder computacional do laboratório é gerenciado pela UT-Battelle, uma organização sem fins lucrativos criada em 2000 exclusivamente para supervisionar as instalações de Oak Ridge para o Departamento de Energia, em colaboração com a Universidade do Tennessee e o Battelle Memorial Institute, sem fins lucrativos.

Foto de : ORNL

O EIG afirma que o programa de manutenção da UT-Battelle não atendeu aos requisitos necessários. A própria UT-Battelle disse ao regulador que a calibração regular não é necessária porque cada equipamento é calibrado no momento da instalação e, posteriormente, os sistemas do data center são constantemente monitorados pelo subcontratado por meio de software que notifica incidentes. O EIG enfatiza que, embora esta prática seja permitida, todo o software deve ser monitorado através de um programa específico de garantia de qualidade que descreva exatamente como os requisitos de segurança são atendidos.

No entanto, o laboratório não conseguiu fornecer tais documentos – a UT-Battelle na verdade não sabe se o software fornece dados corretos. Além disso, a UT-Battelle não verificou todas as válvulas de ar em tempo hábil e quase metade das válvulas de água e refrigerante não foram testadas e/ou inspecionadas de acordo com as instruções. Em alguns casos, os testes foram realizados de acordo com as recomendações do fabricante e não com as orientações do laboratório. UT-Battelle afirma que o procedimento de verificação está sendo revisado.

Imagem: AMD.

O relatório do GIG sublinha que já foi realizada uma auditoria semelhante em 2020, que revelou literalmente os mesmos problemas. Embora a situação tenha melhorado em alguns aspectos, são necessárias medidas adicionais para colocar as coisas em ordem. Ao mesmo tempo, a UT-Battelle reconheceu plenamente a validade das recomendações e concordou em desenvolver um plano de garantia de qualidade para o software de monitoramento e garantir a operação e manutenção das válvulas PRV de acordo com os procedimentos e requisitos atuais.

avalanche

Postagens recentes

Subnautica 2 – Bom no fundo do mar. Prévia / Jogos

Unknown Worlds Entertainment 14 de maio de 2026 (Acesso Antecipado) Jogado no PC O gênero…

6 horas atrás

A Samsung está preparando SSDs Nearline de petabytes — alta capacidade, mas não muito confiáveis.

A Scality, especialista em armazenamento definido por software (SDS), revelou detalhes de uma nova classe…

12 horas atrás

Os geoengenheiros da Stardust propuseram resfriar a Terra pulverizando uma “areia” refletora especial na estratosfera.

A Stardust Solutions, empresa especializada em tecnologias de geoengenharia, propôs uma solução que, segundo ela,…

12 horas atrás

Robôs humanoides da Figure AI aprenderam a separar encomendas 24 horas por dia.

A Figure AI relatou que, durante os testes, seus robôs humanoides operaram por mais de…

14 horas atrás

Os EUA suspeitam que a Arm pratique comportamento anticoncorrencial.

A Comissão Federal de Comércio dos EUA (FTC, na sigla em inglês) iniciou uma investigação…

14 horas atrás

O processador Intel Core i9-14900KF foi overclockado para 9206,34 MHz – um novo recorde mundial.

Um overclocker chinês apelidado de "Wytiwx" estabeleceu um novo recorde mundial de overclock de CPU,…

15 horas atrás