A infraestrutura de IA do Grande Colisor de Hádrons (LHC) tem pouco em comum com as soluções clássicas baseadas em TPU ou GPU. Em vez disso, o CERN literalmente “grava” modelos de IA personalizados em silício para filtrar quantidades massivas de dados em tempo quase real, relata o The Register.
O colisor gera 40.000 EB de dados brutos de sensores anualmente — aproximadamente um quarto de todo o volume da internet. O CERN não consegue armazenar esse tipo de informação, então precisa selecionar o que é valioso em tempo real. Isso representa um fluxo de dados de até centenas de terabytes por segundo. Os algoritmos para processar esses dados precisam ser extremamente rápidos. É por isso que eles são literalmente “gravados” diretamente nos chips.
No anel de 27 quilômetros do LHC, partículas subatômicas colidem a velocidades próximas à da luz. Cerca de 2.800 feixes de prótons se movem constantemente ao redor do anel em intervalos de 25 segundos. Embora os cientistas “ajudem” as partículas, as colisões são relativamente raras — de bilhões de prótons, apenas cerca de 60 pares colidem em cada sessão. As colisões produzem novas partículas, que são detectadas pelos detectores do CERN.
Fonte da imagem: Brandon Style/unsplash.com
Cada colisão entre duas partículas gera vários megabytes de dados. Cerca de um bilhão de colisões ocorrem por segundo, produzindo aproximadamente 1 petabyte de informação. Naturalmente, coletar e armazenar tais volumes de dados brutos é tecnicamente impossível, então o CERN criou um gigantesco sistema de computação para separar os dados em “interessantes” e “não interessantes” no nível do detector.
Fonte da imagem: Thea Klaeboe Aarrestad (ETH Zurique)
Os detectores usam ASICs para armazenar dados em buffer em no máximo 4 µs — ou são armazenados ou perdidos para sempre. A decisão é tomada por um filtro de gatilho de nível um baseado em aproximadamente 1.000 FPGAs, que recebem dados via link óptico a uma taxa de aproximadamente 10 TB/s. As decisões são tomadas em tempo real pelos próprios chips, à medida que os dados chegam — nem mesmo a memória externa mais rápida consegue lidar com esse fluxo de informações. Um algoritmo especializado, AXOL1TL, toma decisões em no máximo 50 ns. Apenas cerca de 0,02% dos dados de colisão, ou aproximadamente 110.000 eventos por segundo, são efetivamente armazenados. Os dados filtrados são enviados para a superfície, mas mesmo após a filtragem inicial, isso representa um terabyte de dados sendo transmitido a cada segundo.
Fonte da imagem: Thea Klaeboe Aarrestad (ETH Zurique)
À primeira vista, o segundo filtro — High Level Trigger — reserva aproximadamente 1.000 eventos por segundo para análise. O sistema está equipado com 25.600 CPUs e 400 GPUs, que reconstroem colisões e selecionam os resultados mais interessantes para análise. O resultado é aproximadamente 1 PB/dia de novos dados, distribuídos entre 170 centros de pesquisa em 42 países, onde cientistas de todo o mundo podem analisá-los. O poder computacional combinado de todos os participantes do projeto é de aproximadamente 1,4 milhão de núcleos. O CERN pretende medir os parâmetros de colisão com 99,999% de precisão — o “padrão ouro” exigido para anúncios de descobertas científicas.
Fonte da imagem: Thea Klaeboe Aarrestad (ETH Zurique)
As ferramentas convencionais de IA são pouco adequadas para detectores, então os engenheiros do CERN tiveram que desenvolver sua própria plataforma. Os modelos de IA para o LHC são especificamente reduzidos, modernizados, paralelizados e “treinados” para identificar apenas os dados realmente relevantes. Para o LHC, eles não são menos poderosos, mas significativamente mais baratos do que os modelos de aprendizado de máquina tradicionais. Para transferir os modelos para o ambiente de hardware, é utilizado o compilador HLS4ML, que converte o modelo em código C++ que pode ser executado em aceleradores de IA, SoCs, FPGAs personalizados e até mesmo incorporado em ASICs. Uma parcela significativa dos recursos do chip é alocada não para o próprio algoritmo, mas para tabelas com resultados pré-calculados para valores de entrada típicos, permitindo uma filtragem de dados ainda mais rápida.
Fonte da imagem: CERN
O LHC será desativado no final do ano, e o novo e mais potente colisor LHC de Alta Luminosidade está programado para entrar em operação em 2031. Ele receberá ímãs mais fortes para focalizar os feixes de partículas, os próprios feixes terão o dobro do tamanho, o colisor gerará 10 vezes mais dados e o volume de informações de cada evento aumentará de 2 para 8 MB. O CERN já acumulou 1 elétron-buraco (EB) do LHC, mas isso representa apenas um décimo do que será armazenado e processado nos próximos 10 anos. Enquanto laboratórios de IA de ponta criam LLMs cada vez maiores, o CERN está caminhando na direção oposta, fazendo todos os esforços para simplificar e acelerar a detecção de eventos incomuns usando inteligência artificial.
Se você notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever um melhor? Ficaremos felizes em receber seu feedback.
Fonte:
A Altera, desenvolvedora líder de FPGAs, anunciou uma colaboração ampliada com a Arm para combinar…
O chatbot Gemini AI do Google agora pode importar memórias e conversas de outros serviços…
A Samsung Display anunciou o desenvolvimento de uma nova película QuantumBlack para monitores QD-OLED, que…
Os satélites tradicionais em órbita baixa da Terra enfrentam um problema: os resquícios da atmosfera…
A Huawei Technologies, que está sob sanções dos EUA desde 2019, decidiu expandir ativamente sua…
Os legisladores europeus decidiram adiar a entrada em vigor de disposições importantes da "Lei de…