A influência da radiação ionizante (radiação) na eletrônica é indiscutível e é uma das razões para a introdução generalizada da tecnologia de correção de erros. Mas se tudo estiver mais ou menos claro com memória e processadores, existe uma classe de microcircuitos para a qual esse problema foi pouco estudado, pelo menos até recentemente. Estes são circuitos lógicos programáveis, FPGA.

Se a radiação de fundo usual para FPGAs únicos obviamente não representa uma ameaça significativa, então o que dizer de arrays de centenas de milhares de chips desse tipo trabalhando juntos? A questão não é ociosa devido à crescente popularidade dos FPGAs como coprocessadores reconfiguráveis ​​multifuncionais na área de HPC. Cientistas da Universidade de Brigham Young (Brigham Young University), Utah, EUA, deram uma resposta a essa pergunta.

A partícula voadora descarrega a célula SRAM. Fonte: slideshare.net

O data center em Denver, Colorado, onde até 100.000 aceleradores baseados em FPGA trabalham simultaneamente, serviu como campo de testes. Esses microcircuitos têm os chamados. “memória de configuração” responsável por armazenar o circuito eletrônico implementado no FPGA – caminhos, conexões, blocos funcionais. Ele não possui suporte ECC e, conforme observado pelo pesquisador principal Andrew Keller (Andrew Keller), a radiação ionizante que passa por essa área pode desconectar elementos inteiros do circuito, pois os valores armazenados nas células de memória mudam sob sua influência.

O efeito da radiação ionizante na memória de configuração cria uma fonte de “erro permanente”. Fonte: slideshare.net

Em um data center com uma escala de 100.000 FPGAs, uma alteração nos dados na memória de configuração pode ocorrer a cada meia hora e a corrupção silenciosa de dados (SDC) pode se acumular por até 11 dias. Este último representa a maior ameaça, porque todos esses dias o erro se acumula – o sistema ainda está realizando cálculos, mas os resultados podem estar incorretos. Outro perigo é a falha completa do FPGA, mas isso será percebido pelos responsáveis ​​pela saúde dos equipamentos do data center.

FPGAs também vêm em uma versão protegida contra radiação. Fonte: militaraerospace.com

Os métodos de proteção, no entanto, são bastante simples: a mecânica de correção de erros Single Event Upsets (SEU) é implementada em todos os FPGAs modernos; há também um mecanismo para reescrever periodicamente a configuração (depuração) em caso de erro, o que pode reduzir a probabilidade de corrupção de dados em 3 a 22 vezes. Infelizmente, a maioria das soluções baseadas em FPGA não usa o último mecanismo, embora, como observaram os pesquisadores, grandes hiperescaladores o usem com mais frequência.

Também foi assumido que, à medida que processos técnicos mais sutis são dominados, a probabilidade de erros de vários bits teoricamente aumenta, uma vez que uma partícula voadora pode tocar não uma célula de memória, mas várias ao mesmo tempo. No entanto, os experimentos da equipe Keller refutam essa suposição. Aparentemente, os fabricantes de FPGA estão cientes desse efeito e estão tentando proteger novos produtos dele. Existem também FPGAs robustos, que são normalmente usados ​​em aplicações militares e aeroespaciais.

Deixe um comentário

O seu endereço de e-mail não será publicado.