O Centro de Dados Científicos e Computação (SDCC) do Laboratório Nacional de Brookhaven (BNL) do Departamento de Energia dos EUA (DoE) vangloriou-se de já ter mais de 300 PB de informações em seus repositórios. De acordo com a Datacenter Dynamics, é o terceiro maior repositório de dados científicos dos Estados Unidos e o maior arquivo de fitas dos Estados Unidos.
Os dados armazenados referem-se a experimentos em física nuclear e de partículas. Num comunicado de imprensa do Laboratório Brookhaven, os funcionários do SDCC afirmam que o arquivo contém seis vezes mais dados do que toda a história escrita da humanidade, começando com fontes sânscritas (50 PB). Em particular, o repositório contém dados obtidos de experimentos no Relativistic Heavy Ion Collider (RHIC) do Departamento de Energia dos EUA, que opera no Laboratório Brookhaven desde 2000, e dados do experimento ATLAS no Large Hadron Collider (LHC).
Todas as informações estão disponíveis online e mediante solicitação. As informações são armazenadas em uma biblioteca de fitas robótica de alta tecnologia. O laboratório já desenvolveu software e site próprios para monitoramento de transferência de dados, e a estrutura também está colaborando com outros laboratórios do Departamento de Energia e IBM no desenvolvimento de um sistema de gerenciamento de informação – High-Performance Storage System (HPSS). Este último garante que diferentes sistemas de armazenamento, da fita ao disco, possam ser usados de forma eficaz em diferentes combinações. Também foi desenvolvido software para que os físicos acessem as informações do SDCC.
Funcionários do SDCC dizem que o laboratório se beneficia do armazenamento híbrido: os dados são armazenados principalmente em fita e transferidos para disco somente quando necessário, reduzindo custos operacionais e tornando o armazenamento mais ecologicamente correto. Assim, os discos requerem refrigeração e energia, enquanto as fitas simplesmente ficam em bibliotecas fora de sua vida útil. As próprias bibliotecas de fitas estão alojadas em salas especiais com consumo de energia e refrigeração otimizados.
Existem também capacidades disponíveis para o crescente “cache” de dados recolhidos pelos laboratórios. Como parte do experimento sPHENIX, os cientistas pretendem obter cerca de 565 PB de dados, que são gravados simultaneamente em discos e fitas. No próximo ano, o RHIC será substituído pelo EIC, que deverá gerar 220 PB/ano.
Observa-se que a capacidade de armazenamento em fita geralmente dobra a cada 4-5 anos, e elas próprias estão se tornando mais compactas. Ao transferir periodicamente dados de mídias antigas para novas, os especialistas liberam muito espaço na biblioteca. Atualmente, a capacidade potencial das bibliotecas do Laboratório é de cerca de 1,5 EB, mas os cientistas esperam que com o tempo a aumentem para 3 EB. Vale ressaltar que a demanda por cartuchos de fita só vem crescendo. Em 2023, os embarques atingiram o recorde de 153 EB. É verdade que isso não ajudou todos os fornecedores.