Devido a um erro cometido durante o desenvolvimento de uma atualização de firmware para alto-falantes inteligentes Yandex Station, uma carga anormalmente alta foi criada em servidores NTP (Network Time Protocol) no segmento russo da Internet – esses recursos são usados ​​​​para sincronização de horário. A empresa não descobriu o erro de imediato, mas listou medidas que evitariam sua recorrência.

Fonte da imagem: Yandex

Em meados de outubro, um dos voluntários que configurou um servidor NTP em seu roteador doméstico descobriu que o canal do dispositivo estava entupido de solicitações. A atualização do firmware e a reinicialização não resolveram o problema, mas ele desapareceu após a desativação do NTP. Descobriu-se ainda que, desde meados de outubro, 120 dos 140 servidores NTP russos pararam de funcionar. O voluntário apelou à comunidade Habr para lançar servidores NTP em máquinas virtuais de fornecedores nacionais como medida temporária por uma taxa mínima – além dos usuários comuns, um grande operador de nuvem respondeu e alocou 30 máquinas virtuais de uma só vez.

O culpado acabou sendo o Yandex, que em meados de outubro começou a lançar um novo firmware para os alto-falantes inteligentes da série Station. O firmware desses dispositivos contém um cliente padrão de sincronização de horário. No modo normal, é realizado a cada cinco horas, mas se a tentativa não for bem-sucedida, é repetido após cinco segundos. Devido a um erro em um dos módulos relacionados ao cliente, todos os dispositivos com firmware atualizado passaram a sincronizar o horário a cada cinco segundos, independente do resultado da tentativa anterior – lembramos que só nos primeiros nove meses de 2024, cerca de 3 milhões de estações Yandex foram vendidas “

No estágio inicial, o Yandex implantou firmware em 10% dos dispositivos – esta é uma medida padrão para identificar erros nos estágios iniciais. Mas o esquema padrão de detecção de erros da época não tinha uma métrica para solicitações NTP e, em 24 de outubro, o firmware havia se espalhado para 100% dos dispositivos. As primeiras reclamações sobre um número excessivo de solicitações de NTP começaram a chegar no dia 10 de novembro – esse sintoma geralmente é explicado por problemas do lado do usuário e, devido ao pequeno volume de reclamações, a prioridade do problema era baixa. O erro foi descoberto apenas no dia 20 de novembro – nessa época já foi corrigido e eles começaram a preparar uma nova versão de firmware.

Mas não dava mais para ganhar tempo, pois no final de semana de 23 e 24 de novembro restavam apenas quatro servidores na Internet. Portanto, como medida temporária, Yandex lançou um hotfix – uma atualização de emergência que aumentou o período de circulação de 5 para 600 segundos. A carga nos servidores NTP foi assim reduzida em 120 vezes, mas se alguma das Estações Yandex, depois de ligada, não conseguir sincronizar a hora na primeira tentativa, nos 10 minutos seguintes as suas funções relacionadas com a hora ficarão indisponíveis. Isso ajudou a estabilizar a situação – naquela época, membros da comunidade Habr começaram a lançar servidores NTP.

Para evitar que o incidente ocorra novamente no futuro, Yandex decidiu tomar várias medidas:

  • Alocar vários recursos da empresa para um conjunto comum de servidores NTP;
  • Organize uma zona de servidor NTP separada para seus dispositivos;
  • Monitorar métricas relacionadas ao NTP ao lançar produtos novos e atualizar produtos antigos;
  • Melhorar os mecanismos de feedback dos usuários para melhor identificar tais problemas.
avalanche

Postagens recentes

Os chineses propuseram gravar dados em diamantes para sempre – a densidade será 10.000 maior do que em DVD

Um artigo foi publicado na revista Nature Photonics no qual cientistas da Universidade de Ciência…

51 minutos atrás

Oito anos após seu lançamento desastroso, as análises de No Man’s Sky no Steam são “muito positivas”

O RPG de ação Cyberpunk 2077 da CD Projekt Red, após um lançamento malsucedido, levou…

3 horas atrás

A Internet móvel desacelerou no metrô de Moscou pela primeira vez em quatro anos

A velocidade média de acesso à Internet móvel no metro da capital diminuiu pela primeira…

3 horas atrás