Devido a um erro cometido durante o desenvolvimento de uma atualização de firmware para alto-falantes inteligentes Yandex Station, uma carga anormalmente alta foi criada em servidores NTP (Network Time Protocol) no segmento russo da Internet – esses recursos são usados ​​​​para sincronização de horário. A empresa não descobriu o erro de imediato, mas listou medidas que evitariam sua recorrência.

Fonte da imagem: Yandex

Em meados de outubro, um dos voluntários que configurou um servidor NTP em seu roteador doméstico descobriu que o canal do dispositivo estava entupido de solicitações. A atualização do firmware e a reinicialização não resolveram o problema, mas ele desapareceu após a desativação do NTP. Descobriu-se ainda que, desde meados de outubro, 120 dos 140 servidores NTP russos pararam de funcionar. O voluntário apelou à comunidade Habr para lançar servidores NTP em máquinas virtuais de fornecedores nacionais como medida temporária por uma taxa mínima – além dos usuários comuns, um grande operador de nuvem respondeu e alocou 30 máquinas virtuais de uma só vez.

O culpado acabou sendo o Yandex, que em meados de outubro começou a lançar um novo firmware para os alto-falantes inteligentes da série Station. O firmware desses dispositivos contém um cliente padrão de sincronização de horário. No modo normal, é realizado a cada cinco horas, mas se a tentativa não for bem-sucedida, é repetido após cinco segundos. Devido a um erro em um dos módulos relacionados ao cliente, todos os dispositivos com firmware atualizado passaram a sincronizar o horário a cada cinco segundos, independente do resultado da tentativa anterior – lembramos que só nos primeiros nove meses de 2024, cerca de 3 milhões de estações Yandex foram vendidas “

No estágio inicial, o Yandex implantou firmware em 10% dos dispositivos – esta é uma medida padrão para identificar erros nos estágios iniciais. Mas o esquema padrão de detecção de erros da época não tinha uma métrica para solicitações NTP e, em 24 de outubro, o firmware havia se espalhado para 100% dos dispositivos. As primeiras reclamações sobre um número excessivo de solicitações de NTP começaram a chegar no dia 10 de novembro – esse sintoma geralmente é explicado por problemas do lado do usuário e, devido ao pequeno volume de reclamações, a prioridade do problema era baixa. O erro foi descoberto apenas no dia 20 de novembro – nessa época já foi corrigido e eles começaram a preparar uma nova versão de firmware.

Mas não dava mais para ganhar tempo, pois no final de semana de 23 e 24 de novembro restavam apenas quatro servidores na Internet. Portanto, como medida temporária, Yandex lançou um hotfix – uma atualização de emergência que aumentou o período de circulação de 5 para 600 segundos. A carga nos servidores NTP foi assim reduzida em 120 vezes, mas se alguma das Estações Yandex, depois de ligada, não conseguir sincronizar a hora na primeira tentativa, nos 10 minutos seguintes as suas funções relacionadas com a hora ficarão indisponíveis. Isso ajudou a estabilizar a situação – naquela época, membros da comunidade Habr começaram a lançar servidores NTP.

Para evitar que o incidente ocorra novamente no futuro, Yandex decidiu tomar várias medidas:

  • Alocar vários recursos da empresa para um conjunto comum de servidores NTP;
  • Organize uma zona de servidor NTP separada para seus dispositivos;
  • Monitorar métricas relacionadas ao NTP ao lançar produtos novos e atualizar produtos antigos;
  • Melhorar os mecanismos de feedback dos usuários para melhor identificar tais problemas.
avalanche

Postagens recentes

Pronto para a missão: o thriller de espionagem 007 First Light, dos criadores de Hitman, alcançou o status gold duas semanas antes do lançamento.

O ambicioso thriller de espionagem 007 First Light, da desenvolvedora dinamarquesa IO Interactive (da série…

5 horas atrás

Um asteroide do tamanho de uma casa passará perto da Terra na próxima semana – ele estará quatro vezes mais perto do que a Lua.

Na segunda-feira, 18 de maio, um asteroide descoberto há poucos dias passará perto da Terra,…

6 horas atrás

O setor de tecnologia foi atingido por uma onda de demissões, com mais de 100 mil funcionários perdendo seus empregos desde o início do ano.

No início de maio, o número de demissões no setor de tecnologia ultrapassou 100 mil…

6 horas atrás

A Microsoft corrigiu um bug no Windows Autopatch que fazia com que os drivers fossem atualizados sem permissão.

A Microsoft corrigiu um bug no Windows Autopatch que fazia com que alguns dispositivos Windows…

6 horas atrás

A primeira bateria de gravidade da África será construída na África do Sul.

A empresa estatal sul-africana de energia elétrica, Eskom, anunciou o lançamento de um dos projetos…

7 horas atrás

A Devolver Digital anunciou The Talos Principle 3, o grande final da trilogia de quebra-cabeças filosóficos dos criadores de Serious Sam.

A editora Devolver Digital e a desenvolvedora Croteam (série Serious Sam) anunciaram The Talos Principle…

7 horas atrás