A taxa de falhas do disco rígido da Backblaze aumentou – a empresa usará IA para prever falhas

A Backblaze, que fornece serviços de armazenamento em nuvem e backup de dados, publicou outro relatório sobre estatísticas de falhas de discos rígidos de diversos modelos. Seguindo a tendência mundial, a empresa decidiu descobrir se a inteligência artificial pode ajudar a reduzir o número de falhas.

Fonte da imagem: MH Rhee/pixabay.com

No final do segundo trimestre de 2024, Backblaze tinha 284.876 discos rígidos em operação. A empresa excluiu da amostra os modelos que operam em quantidades de até 100 unidades e aqueles que não acumularam um total de 10 mil dias de operação no trimestre. O relatório incluiu 284.386 unidades de 29 modelos. Dada a popularidade das tecnologias de IA em todos os setores hoje, a Backblaze se perguntou se elas poderiam ser usadas para prever falhas no disco rígido. Para fazer isso, será necessário treinar um grande modelo de linguagem nas estatísticas da empresa e testar a hipótese se a IA é capaz de calcular a probabilidade de falha de um determinado drive ao longo do tempo – e ainda não está claro se as estatísticas para um modelo pode ser aplicado a outro, porque seus perfis de falha podem diferir radicalmente.

Aqui e abaixo, fonte das imagens: backblaze.com

O último relatório constatou que a taxa média anual de insucesso (AFR) do segundo trimestre foi de 1,71%, inferior aos 2,28% registados no mesmo período do ano passado, mas superior aos 1,41% do primeiro trimestre de 2024. A maior preocupação foi o HGST de 12 TB (HUH721212ALN604), cujo AFR saltou para 7,17% no período, elevando sua taxa de vida útil de 0,99% para 1,57%. Vale ressaltar também que dois modelos – Seagate 14 TB ST14000NM000J e 16 TB ST16000NM002J – não apresentaram nenhuma falha durante o trimestre. Mas o Backblaze tem um número relativamente pequeno dessas unidades em serviço.

O modelo mais antigo em operação é o Seagate com capacidade de 4 TB (ST4000DM000), e a empresa pretende transferir dados dessas unidades para unidades mais novas e com maior capacidade no próximo trimestre ou dois. E a instância mais utilizada foi o disco HGST com capacidade de 4 TB (HMS5C4040ALE640), que no final do segundo trimestre funcionou por 9 anos 11 meses e 23 dias – agora o armazenamento no qual esse disco está instalado está em processo da migração.

O objetivo de coletar e processar essas estatísticas é criar um perfil de falha de cada unidade ao longo do tempo, explicou Backblaze, o que ajudará a desenvolver estratégias de substituição e migração. Isto é ilustrado por três diagramas propostos pela empresa, compilados com base em estatísticas de falhas de modelos, cujas cópias estão em uso na empresa há um total de 1 milhão de dias ou mais. O primeiro gráfico mostra AFRs para 14 modelos com idade média de 60 meses ou menos, e o segundo gráfico mostra AFRs para modelos com idade média superior a 60 meses. Esta divisão foi escolhida porque 60 meses é um período de garantia típico para discos rígidos de classe empresarial.

As unidades que se enquadram no quadrante I do primeiro diagrama são caracterizadas como tendo bom desempenho com uma AFR inferior a 1,5%; no quadrante II – trabalhando aceitável com AFR acima de 1,5%; os modelos do quadrante IV são relativamente novos e o seu perfil de falha está apenas começando a tomar forma. Não houve drives no quadrante III. No segundo diagrama, o quadrante I, como antes, representa modelos qualitativos; Os quadrantes II e III são os “discos com os quais precisamos nos preocupar”; e no quadrante IV houve apenas um modelo, o que não suscita preocupação.

Para mostrar a dinâmica das falhas, foi compilado um terceiro diagrama. Ele mostra a taxa de falhas durante toda a vida útil de nove modelos com mais de 60 meses – para maior clareza, a contagem regressiva começa em 24 meses. A distribuição é predominantemente nos quadrantes I e II, com cinco dos nove modelos do segundo trimestre de 2024 terminando no quadrante I. Modelos cujas linhas são quase verticais (vermelho, marrom e roxo) apresentam uma taxa de falha estável ao longo do tempo. Os modelos das linhas azul e cinza aumentam sua taxa de falhas à medida que envelhecem – a linha azul em particular (Seagate ST800DM002) está dentro dos limites normais, uma vez que sua AFR permaneceu em torno de 1% durante os primeiros 60 meses. Os três modelos que atingiram o quadrante III têm perfis semelhantes – suas curvas se curvam cada vez mais para a direita à medida que a taxa de falhas aumenta. Por fim, a linha preta é um disco Seagate de 4 TB que está “migrando ativamente” e sendo substituído por outros.

avalanche

Postagens recentes

Um ex-engenheiro da Microsoft conseguiu fazer um motor Stirling funcionar usando o calor de um processador AMD Threadripper.

Dave Plummer, desenvolvedor veterano da Microsoft e criador de vários componentes essenciais do Windows, incluindo…

18 minutos atrás

A Sony estava desenvolvendo um controle DualShock com o primeiro PlayStation integrado, mas o projeto foi cancelado.

Um ex-desenvolvedor da Sony apresentou um protótipo do console PlayStation Puga, que nunca chegou ao…

3 horas atrás

Os robôs ainda têm muito espaço para melhorar antes de se tornarem vizinhos seguros para os humanos.

Os desenvolvedores de robôs humanoides estão ansiosos para demonstrar progressos significativos em seu desenvolvimento, mas,…

9 horas atrás

A decisão da Sony de parar de lançar jogos em disco irá remodelar permanentemente o mercado de jogos.

A recente decisão da Sony de interromper o lançamento de jogos para seus consoles em…

9 horas atrás

As autoridades indianas exigiram que o Telegram tome medidas decisivas em 15 dias para combater a disseminação de conteúdo pirateado.

Em junho, as autoridades reguladoras indianas já haviam bloqueado temporariamente o Telegram, alegando a necessidade…

10 horas atrás