O final da semana passada foi lembrado pela maior falha no funcionamento de PCs com Windows nos quais foi instalado o software CrowdStrike projetado para proteção contra ataques cibernéticos. Após sua investigação, CrowdStrike disse que a interrupção ocorreu devido a um bug no teste de software que não conseguiu testar adequadamente a atualização, que foi distribuída para milhões de PCs na sexta-feira.
Ao mesmo tempo, a CrowdStrike prometeu testar mais detalhadamente as atualizações de seu software no futuro, bem como implementar uma implementação faseada de pacotes para evitar uma repetição do incidente que aconteceu há alguns dias. Como lembrete, o aplicativo Falcon da CrowdStrike é usado por empresas em todo o mundo para proteção contra ataques cibernéticos e está instalado em milhões de PCs. Na sexta-feira, a empresa começou a distribuir uma atualização do Falcon que deveria coletar “dados de telemetria sobre possíveis novos métodos para combater ameaças cibernéticas”. Essas atualizações são lançadas com certa regularidade, mas, neste caso, uma delas causou um travamento em grande escala em um PC com Windows.
CrowdStrike normalmente lança dois tipos de atualizações. Os pacotes Sensor Content atualizam o conteúdo do Falcon no dispositivo do usuário e são executados no nível do kernel do Windows. Os pacotes de conteúdo de resposta rápida atualizam as assinaturas do sensor Falcon, que é usado para detectar malware. Nesse caso, um pequeno arquivo de conteúdo de resposta rápida de 40 KB travou 8,5 milhões de computadores.
As atualizações do sensor Falcon normalmente não são implantadas na nuvem e incluem inteligência artificial e modelos de aprendizado de máquina que permitem à CrowdStrike melhorar seus recursos de detecção de malware a longo prazo. Alguns desses recursos incluem os chamados “Tipos de modelo”, que são códigos de programação para novas detecções personalizadas com base em como o pacote é entregue aos dispositivos dos usuários.
CrowdStrike possui uma plataforma em nuvem que é usada para gerenciar os produtos da empresa e validar o conteúdo dos pacotes de atualização antes de serem amplamente distribuídos. Na semana passada, a empresa lançou duas atualizações de conteúdo de resposta rápida de uma só vez. Agora foi determinado que um bug na ferramenta de validação de conteúdo fez com que ambos os pacotes passassem no teste, embora um deles fosse problemático e acabasse levando a uma falha massiva.
Embora a CrowdStrike realize testes automatizados e manuais de atualizações antes da distribuição em massa, parece que neste caso o teste não foi feito de forma suficientemente completa. A implantação anterior de “Tipos de modelo” proporcionou à empresa “confiança nas verificações realizadas pelos validadores de conteúdo”, então a CrowdStrike sentiu que uma nova implementação de tal atualização não causaria complicações. Isso fez com que o sensor Falcon recebesse o conteúdo problemático junto com a atualização do conteúdo de resposta rápida, carregasse seu código em seu interpretador de conteúdo e falhasse devido a uma tentativa de acessar áreas de memória fora do espaço de endereço válido. Este erro não pôde ser tratado pelo Falcon, causando o travamento do Windows.
Para evitar incidentes semelhantes no futuro, a CrowdStrike pretende melhorar o processo de teste de conteúdo para atualizações de conteúdo de resposta rápida, inclusive por meio de testes em sistemas de desenvolvedores locais, implantação gradual de pacotes e integração da capacidade de reverter para um estado anterior do sistema. Além disso, os desenvolvedores implantarão ferramentas adicionais em seus sistemas para testar atualizações de estresse e identificar erros. A estabilidade dos service packs e da interface do Rapid Response Content será testada. CrowdStrike também atualizará a ferramenta de verificação de atualizações na nuvem, bem como melhorará o mecanismo de tratamento de erros no interpretador de conteúdo, que faz parte do sensor Falcon.