Uma falha repentina do processador do servidor pode causar muitos problemas, mesmo que ele não esteja sozinho no sistema e você não precise parar a máquina. E embora as falhas sejam frequentemente associadas a problemas de memória, uma certa parte do próprio processador, como cache ou outros blocos, também pode falhar. Esses erros são difíceis de prever e detectar com antecedência, mas o Intel Xeon Sapphire Rapids tem um mecanismo para detectá-los.

Quando se trata de novos Xeons baseados nessa arquitetura, geralmente são fornecidos muitos dados técnicos, mas a presença de uma unidade detectora de falhas de hardware no silício Sapphire Rapids tornou-se conhecida pela primeira vez. A tecnologia é chamada de In-Field Scan (IFS) e sua existência foi revelada com o advento do driver IFS de código aberto para Linux, que foi notado pela Phoronix. O próprio driver está atualmente em revisão e contém aproximadamente 1,5 mil linhas de código.

Nó de computação do supercomputador Crossroads com dois Xeon Sapphire Rapids

A tecnologia IFS implica a possibilidade de uma verificação nuclear do processador quanto à operacionalidade e funcionalidade total do “silício”. Ele, de acordo com a Intel, é capaz de detectar problemas de hardware que não são detectados por métodos padrão, como paridade ou ECC.

Como exatamente o IFS funciona ainda não foi dito, porque. o driver fornece suporte apenas da infraestrutura de software (SO e hipervisores) – no Linux, ele simplesmente fornece interfaces sysfs. Os testes serão carregados pelo processador da mesma forma que os microcódigos. Os binários de teste IFS são específicos para a família, modelo e stepping de cada Xeon Sapphire Rapids e são carregados em uma área segura da memória após serem autenticados.

As interfaces fornecidas pelo driver IFS permitirão que OEMs ou proprietários de data centers testem em massa os processadores, seja implantando uma infraestrutura com novos servidores ou verificando rotineiramente um sistema já em execução quanto a falhas de hardware. Para os hiperescaladores, tal funcionalidade é tão importante que eles mesmos desenvolvem soluções semelhantes para testar o funcionamento dos núcleos, embora até agora sejam exclusivamente baseadas em software.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *