Os cientistas descobriram que a radiação de fundo pode afetar o FPGA, mas é bem simples se proteger

A influência da radiação ionizante (radiação) na eletrônica é indiscutível e é uma das razões para a introdução generalizada da tecnologia de correção de erros. Mas se tudo estiver mais ou menos claro com memória e processadores, existe uma classe de microcircuitos para a qual esse problema foi pouco estudado, pelo menos até recentemente. Estes são circuitos lógicos programáveis, FPGA.

Se a radiação de fundo usual para FPGAs únicos obviamente não representa uma ameaça significativa, então o que dizer de arrays de centenas de milhares de chips desse tipo trabalhando juntos? A questão não é ociosa devido à crescente popularidade dos FPGAs como coprocessadores reconfiguráveis ​​multifuncionais na área de HPC. Cientistas da Universidade de Brigham Young (Brigham Young University), Utah, EUA, deram uma resposta a essa pergunta.

A partícula voadora descarrega a célula SRAM. Fonte: slideshare.net

O data center em Denver, Colorado, onde até 100.000 aceleradores baseados em FPGA trabalham simultaneamente, serviu como campo de testes. Esses microcircuitos têm os chamados. “memória de configuração” responsável por armazenar o circuito eletrônico implementado no FPGA – caminhos, conexões, blocos funcionais. Ele não possui suporte ECC e, conforme observado pelo pesquisador principal Andrew Keller (Andrew Keller), a radiação ionizante que passa por essa área pode desconectar elementos inteiros do circuito, pois os valores armazenados nas células de memória mudam sob sua influência.

O efeito da radiação ionizante na memória de configuração cria uma fonte de “erro permanente”. Fonte: slideshare.net

Em um data center com uma escala de 100.000 FPGAs, uma alteração nos dados na memória de configuração pode ocorrer a cada meia hora e a corrupção silenciosa de dados (SDC) pode se acumular por até 11 dias. Este último representa a maior ameaça, porque todos esses dias o erro se acumula – o sistema ainda está realizando cálculos, mas os resultados podem estar incorretos. Outro perigo é a falha completa do FPGA, mas isso será percebido pelos responsáveis ​​pela saúde dos equipamentos do data center.

FPGAs também vêm em uma versão protegida contra radiação. Fonte: militaraerospace.com

Os métodos de proteção, no entanto, são bastante simples: a mecânica de correção de erros Single Event Upsets (SEU) é implementada em todos os FPGAs modernos; há também um mecanismo para reescrever periodicamente a configuração (depuração) em caso de erro, o que pode reduzir a probabilidade de corrupção de dados em 3 a 22 vezes. Infelizmente, a maioria das soluções baseadas em FPGA não usa o último mecanismo, embora, como observaram os pesquisadores, grandes hiperescaladores o usem com mais frequência.

Também foi assumido que, à medida que processos técnicos mais sutis são dominados, a probabilidade de erros de vários bits teoricamente aumenta, uma vez que uma partícula voadora pode tocar não uma célula de memória, mas várias ao mesmo tempo. No entanto, os experimentos da equipe Keller refutam essa suposição. Aparentemente, os fabricantes de FPGA estão cientes desse efeito e estão tentando proteger novos produtos dele. Existem também FPGAs robustos, que são normalmente usados ​​em aplicações militares e aeroespaciais.

avalanche

Postagens recentes

A Nintendo anunciou sua primeira apresentação Nintendo Direct de 2026: Partner Showcase – onde e quando assistir.

Após uma série de rumores e revelações de fontes internas, a Nintendo, fornecedora japonesa de…

20 minutos atrás

Os bots de IA se tornaram um novo tipo de usuário da internet e geradores de tráfego — bloqueá-los não os impede.

Bots com inteligência artificial já representam uma parcela significativa do tráfego da web, segundo reportagem…

1 hora atrás

A Anthropic fez com que as ações de empresas de software e serviços financeiros caíssem US$ 285 bilhões com uma nova ferramenta de IA para negócios.

O lançamento da nova ferramenta da Anthropic, baseada em inteligência artificial, para automatizar tarefas empresariais…

2 horas atrás

O Google Gemini aprenderá a controlar um smartphone – um novo recurso já foi revelado no código.

As capacidades dos modelos modernos de inteligência artificial estão se expandindo constantemente e, num futuro…

2 horas atrás

O Windows 11 está apresentando falhas novamente, e alguns usuários estão enfrentando o desaparecimento da área de trabalho.

Foi descoberto um bug no Windows 11 que está causando mau funcionamento de elementos importantes…

3 horas atrás