A AMD publicou (PDF) informações sobre um bug que ocorre com os processadores de servidor EPYC 7002 Rome – isso leva a um congelamento do kernel após 1044 dias de operação contínua. Ou seja, para o correto funcionamento, o servidor deverá ser reinicializado a cada 2,93 anos. E a AMD não vai corrigir esse erro.
O problema está relacionado ao fato de o núcleo não conseguir sair do modo de economia de energia CC6 (Core C6 State), que permite diminuir a tensão e diminuir a frequência quando ocioso. A AMD esclareceu que o tempo da falha pode depender da modulação do Spread Spectrum e da referência de frequência REFCLK, que ajuda o chip a controlar o tempo.
Uma hipótese plausível sobre a causa do erro foi apresentada pelo usuário do Reddit acid_migrain. Segundo sua versão, o erro na realidade se manifesta não depois de 1044, mas depois de 1042 dias e 12 horas. Escala do contador de carimbo de data/hora opera a 2800 MHz. Por cálculos simples, verifica-se que 2800 × 106 × 1042,5 é aproximadamente igual a 0x3800000000000000 – existem “zeros demais para que isso não seja uma coincidência”. O problema tem duas soluções simples: reinicialize o servidor a cada 1044 dias (com base nas informações da AMD) ou desative o modo de economia de energia CC6.
Os processadores da série AMD EPYC Rome foram lançados em 2018 e é possível que alguns de seus proprietários já tenham encontrado esse problema. O fabricante acrescentou que não planeja corrigir o erro – talvez isso exija custos muito altos ou não afete tantos clientes.