Departamento de Energia dos EUA revela má manutenção do supercomputador exaescala Frontier

O Escritório do Inspetor Geral (OIG) do Departamento de Energia dos EUA inspecionou o data center do Laboratório Nacional de Oak Ridge, que abriga supercomputadores avançados, incluindo o primeiro sistema exascale do mundo, o Frontier. Segundo o The Register, os resultados deixam muito a desejar.

Em setembro passado, o EIG recebeu uma declaração sobre a necessidade de verificar a qualidade do serviço e calibração de equipamentos (principalmente sensores de temperatura e automação de sistemas de refrigeração) no laboratório localizado no Tennessee. O laboratório está envolvido em projetos na área de energia nuclear e segurança nacional. O relatório de auditoria está relacionado ao data center em Oak Ridge. Um dos campi abriga o Oak Ridge Leadership Computing Facility (OLCF), que opera o supercomputador Frontier.

Foto de : ORNL

A fiscalização foi realizada de janeiro a setembro de 2023 e confirmou os dados do pedido recebido pelo regulador. De acordo com o relatório do EIG, a declaração afirmava que o programa de calibração não estava de acordo com os padrões e que as válvulas de alívio de pressão (PRVs) no data center não eram mantidas ou eram mal mantidas. A falha das válvulas pode fazer com que a pressão suba acima dos limites aceitáveis, podendo causar danos ao equipamento e ao pessoal. Como a infra-estrutura não foi mantida adequadamente, poderia limitar a disponibilidade de recursos computacionais e comprometer os objectivos da missão do laboratório, disse o EIG.

O poder computacional do laboratório é gerenciado pela UT-Battelle, uma organização sem fins lucrativos criada em 2000 exclusivamente para supervisionar as instalações de Oak Ridge para o Departamento de Energia, em colaboração com a Universidade do Tennessee e o Battelle Memorial Institute, sem fins lucrativos.

Foto de : ORNL

O EIG afirma que o programa de manutenção da UT-Battelle não atendeu aos requisitos necessários. A própria UT-Battelle disse ao regulador que a calibração regular não é necessária porque cada equipamento é calibrado no momento da instalação e, posteriormente, os sistemas do data center são constantemente monitorados pelo subcontratado por meio de software que notifica incidentes. O EIG enfatiza que, embora esta prática seja permitida, todo o software deve ser monitorado através de um programa específico de garantia de qualidade que descreva exatamente como os requisitos de segurança são atendidos.

No entanto, o laboratório não conseguiu fornecer tais documentos – a UT-Battelle na verdade não sabe se o software fornece dados corretos. Além disso, a UT-Battelle não verificou todas as válvulas de ar em tempo hábil e quase metade das válvulas de água e refrigerante não foram testadas e/ou inspecionadas de acordo com as instruções. Em alguns casos, os testes foram realizados de acordo com as recomendações do fabricante e não com as orientações do laboratório. UT-Battelle afirma que o procedimento de verificação está sendo revisado.

Imagem: AMD.

O relatório do GIG sublinha que já foi realizada uma auditoria semelhante em 2020, que revelou literalmente os mesmos problemas. Embora a situação tenha melhorado em alguns aspectos, são necessárias medidas adicionais para colocar as coisas em ordem. Ao mesmo tempo, a UT-Battelle reconheceu plenamente a validade das recomendações e concordou em desenvolver um plano de garantia de qualidade para o software de monitoramento e garantir a operação e manutenção das válvulas PRV de acordo com os procedimentos e requisitos atuais.

avalanche

Postagens recentes

Uma galáxia distante explodiu em um aglomerado galáctico e proporcionou um espetáculo de luzes que ocupou metade do céu.

Astrônomos relataram a descoberta de uma radiogaláxia incomum, RAD-BAARG, ao redor da qual se formou…

37 minutos atrás

O Ayaneo Pocket Micro 2, um console portátil compacto com um processador Snapdragon 865 personalizado, foi lançado por US$ 239.

A Ayaneo lançou o Pocket Micro 2, seu segundo console Android em miniatura e formato…

2 horas atrás

Os Raspberry Pi 4 Modelo B com clock reduzido já estão disponíveis para compra.

Uma nova versão do computador de placa única Raspberry Pi 4 Modelo B já está…

4 horas atrás

A Comissão Europeia tomou conhecimento da AWS e do Microsoft Azure.

A Comissão Europeia anunciou que chegou a uma conclusão preliminar para incluir os principais serviços…

4 horas atrás

Um entusiasta conseguiu executar o Windows 11 em um computador com memória DDR, um processador Intel Core 2 Quad e uma placa de vídeo Radeon HD 4650.

A escassez de chips de memória e os preços exorbitantes estão inspirando entusiastas a grandes…

4 horas atrás

O Gemini agora consegue encontrar aplicativos na Play Store por meio de comandos de voz.

A Google Play Store provavelmente tem aplicativos para todos os gostos e necessidades, mas a…

4 horas atrás