O supercomputador mais poderoso do mundo, Frontier, lançado este ano, embora tenha começado a funcionar, ainda não está funcionando no nível adequado, disse Justin Whitt, diretor do programa Oak Ridge Leadership Computing Facility (OLCF), ao InsideHPC.

Fonte da imagem: AMD

A Frontier é baseada em processadores AMD EPYC Milan (2 GHz) de 64 núcleos com aceleradores AMD Instinct MI250X e usando interconexão Slingshot proprietária de 11ª geração. De acordo com Whitt, são os aceleradores AMD Instinct MI250X e a interconexão Slingshot que estão causando problemas com o hardware Frontier.

«São principalmente problemas de dimensionamento combinados com a diversidade de aplicativos, portanto, os desafios que enfrentamos estão principalmente relacionados à execução de tarefas muito, muito grandes usando todo o sistema… e fazer com que todo o hardware funcione de maneira consistente”, diz Witt. Ele acrescentou que o problema não está apenas no trabalho dos aceleradores, pois há dúvidas sobre o trabalho de outros componentes.

Justin Witt acredita que esses problemas são comuns ao executar um sistema de supercomputador tão complexo, então ele não vê muitas falhas nos produtos AMD por essas falhas. Segundo ele, problemas semelhantes foram observados durante o lançamento de outros sistemas de computação.

Muitos aplicativos exigem uma configuração exclusiva para serem executados nesse tamanho de hardware. Devido a problemas de hardware que surgiram, inclusive por culpa dos chips AMD, agora há um atraso na instalação do sistema operacional. Mas os especialistas do Oak Ridge National Laboratory estão confiantes de que todo o trabalho de depuração do sistema ocorrerá conforme programado.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *