O Escritório do Inspetor Geral (OIG) do Departamento de Energia dos EUA inspecionou o data center do Laboratório Nacional de Oak Ridge, que abriga supercomputadores avançados, incluindo o primeiro sistema exascale do mundo, o Frontier. Segundo o The Register, os resultados deixam muito a desejar.
Em setembro passado, o EIG recebeu uma declaração sobre a necessidade de verificar a qualidade do serviço e calibração de equipamentos (principalmente sensores de temperatura e automação de sistemas de refrigeração) no laboratório localizado no Tennessee. O laboratório está envolvido em projetos na área de energia nuclear e segurança nacional. O relatório de auditoria está relacionado ao data center em Oak Ridge. Um dos campi abriga o Oak Ridge Leadership Computing Facility (OLCF), que opera o supercomputador Frontier.
Foto de : ORNL
A fiscalização foi realizada de janeiro a setembro de 2023 e confirmou os dados do pedido recebido pelo regulador. De acordo com o relatório do EIG, a declaração afirmava que o programa de calibração não estava de acordo com os padrões e que as válvulas de alívio de pressão (PRVs) no data center não eram mantidas ou eram mal mantidas. A falha das válvulas pode fazer com que a pressão suba acima dos limites aceitáveis, podendo causar danos ao equipamento e ao pessoal. Como a infra-estrutura não foi mantida adequadamente, poderia limitar a disponibilidade de recursos computacionais e comprometer os objectivos da missão do laboratório, disse o EIG.
O poder computacional do laboratório é gerenciado pela UT-Battelle, uma organização sem fins lucrativos criada em 2000 exclusivamente para supervisionar as instalações de Oak Ridge para o Departamento de Energia, em colaboração com a Universidade do Tennessee e o Battelle Memorial Institute, sem fins lucrativos.
Foto de : ORNL
O EIG afirma que o programa de manutenção da UT-Battelle não atendeu aos requisitos necessários. A própria UT-Battelle disse ao regulador que a calibração regular não é necessária porque cada equipamento é calibrado no momento da instalação e, posteriormente, os sistemas do data center são constantemente monitorados pelo subcontratado por meio de software que notifica incidentes. O EIG enfatiza que, embora esta prática seja permitida, todo o software deve ser monitorado através de um programa específico de garantia de qualidade que descreva exatamente como os requisitos de segurança são atendidos.
No entanto, o laboratório não conseguiu fornecer tais documentos – a UT-Battelle na verdade não sabe se o software fornece dados corretos. Além disso, a UT-Battelle não verificou todas as válvulas de ar em tempo hábil e quase metade das válvulas de água e refrigerante não foram testadas e/ou inspecionadas de acordo com as instruções. Em alguns casos, os testes foram realizados de acordo com as recomendações do fabricante e não com as orientações do laboratório. UT-Battelle afirma que o procedimento de verificação está sendo revisado.
Imagem: AMD.
O relatório do GIG sublinha que já foi realizada uma auditoria semelhante em 2020, que revelou literalmente os mesmos problemas. Embora a situação tenha melhorado em alguns aspectos, são necessárias medidas adicionais para colocar as coisas em ordem. Ao mesmo tempo, a UT-Battelle reconheceu plenamente a validade das recomendações e concordou em desenvolver um plano de garantia de qualidade para o software de monitoramento e garantir a operação e manutenção das válvulas PRV de acordo com os procedimentos e requisitos atuais.
