Intel Xeon Sapphire Rapids obtém autodiagnóstico de hardware de silício

Uma falha repentina do processador do servidor pode causar muitos problemas, mesmo que ele não esteja sozinho no sistema e você não precise parar a máquina. E embora as falhas sejam frequentemente associadas a problemas de memória, uma certa parte do próprio processador, como cache ou outros blocos, também pode falhar. Esses erros são difíceis de prever e detectar com antecedência, mas o Intel Xeon Sapphire Rapids tem um mecanismo para detectá-los.

Quando se trata de novos Xeons baseados nessa arquitetura, geralmente são fornecidos muitos dados técnicos, mas a presença de uma unidade detectora de falhas de hardware no silício Sapphire Rapids tornou-se conhecida pela primeira vez. A tecnologia é chamada de In-Field Scan (IFS) e sua existência foi revelada com o advento do driver IFS de código aberto para Linux, que foi notado pela Phoronix. O próprio driver está atualmente em revisão e contém aproximadamente 1,5 mil linhas de código.

Nó de computação do supercomputador Crossroads com dois Xeon Sapphire Rapids

A tecnologia IFS implica a possibilidade de uma verificação nuclear do processador quanto à operacionalidade e funcionalidade total do “silício”. Ele, de acordo com a Intel, é capaz de detectar problemas de hardware que não são detectados por métodos padrão, como paridade ou ECC.

Como exatamente o IFS funciona ainda não foi dito, porque. o driver fornece suporte apenas da infraestrutura de software (SO e hipervisores) – no Linux, ele simplesmente fornece interfaces sysfs. Os testes serão carregados pelo processador da mesma forma que os microcódigos. Os binários de teste IFS são específicos para a família, modelo e stepping de cada Xeon Sapphire Rapids e são carregados em uma área segura da memória após serem autenticados.

As interfaces fornecidas pelo driver IFS permitirão que OEMs ou proprietários de data centers testem em massa os processadores, seja implantando uma infraestrutura com novos servidores ou verificando rotineiramente um sistema já em execução quanto a falhas de hardware. Para os hiperescaladores, tal funcionalidade é tão importante que eles mesmos desenvolvem soluções semelhantes para testar o funcionamento dos núcleos, embora até agora sejam exclusivamente baseadas em software.

avalanche

Postagens recentes

NASA convida a todos para ajudar na busca de exoplanetas: se você não tem seu próprio telescópio, basta um smartphone

A NASA anunciou o acesso gratuito para todos ao programa Exoplanet Watch (“Observação de exoplanetas”).…

1 semana atrás

Fabricante de carros elétricos Rivian perde vários executivos seniores

No início de janeiro, soube-se que a jovem montadora americana Rivian produziu 24.337 veículos elétricos…

1 semana atrás