A Internet é um repositório de dados inimaginavelmente grande, contendo centenas de bilhões de páginas indexadas. Você pode pensar que o espaço da web só está se expandindo com o passar dos anos, mas na realidade isso não é inteiramente verdade. Um novo estudo do Pew Research Center mostra claramente como o conteúdo da web tem vida curta.

Fonte da imagem: geralt/Pixabay

Os analistas estimam que um quarto do número total de páginas web que existiram entre 2013 e 2023 não estarão mais acessíveis em outubro de 2023. Na maioria dos casos, isso se deve ao fato de que, com o tempo, as páginas do site são radicalmente ajustadas ou simplesmente excluídas. Para conteúdos mais antigos, esta tendência também é relevante. Cerca de 38% das páginas web que existiam em 2013 já não estão acessíveis. Se olharmos para as páginas web que existiam em 2023, a taxa de inacessibilidade atualmente é de 8%.

Os especialistas do Pew Research Center estudaram links que aparecem em sites governamentais e de notícias, bem como na seção “Links” das páginas da Wikipedia a partir desta primavera. A análise descobriu que 23% das páginas de notícias continham pelo menos um link quebrado, assim como 21% das páginas governamentais. Links quebrados são especialmente comuns em sites de autoridades locais (administrações municipais). Além disso, 54% das páginas da Wikipedia contêm pelo menos um URL para uma página extinta na seção “Links”.

Fonte da imagem: Pew Research Center

Páginas de redes sociais

Para acompanhar o desaparecimento das páginas das redes sociais, os analistas recolheram uma amostra de tweets online na Plataforma X na primavera de 2023 e acompanharam-nos durante três meses. Como resultado, constatou-se que quase um em cada cinco posts na rede social deixa de estar disponível publicamente vários meses após a publicação. Em 60% dos casos, a conta que postou originalmente o tweet torna-se privada, suspensa ou a conta é removida da plataforma no mesmo período. Nos 40% restantes dos casos, o próprio dono da conta exclui o tweet, mas sua conta continua existindo. Observa-se que mais de 40% dos tweets em turco ou árabe desaparecem do site três meses após a publicação.

Páginas da web da última década

Para conduzir esta parte da análise, os pesquisadores coletaram uma amostra aleatória de pouco menos de 1 milhão de páginas da web dos arquivos do Common Crawl. Os analistas selecionaram páginas dos arquivos do Common Crawl para todos os anos desde 2013 (aproximadamente 90 mil páginas para cada ano) e verificaram se elas existem atualmente.

Verificou-se que 25% das páginas web recolhidas já não estavam acessíveis em outubro de 2023. Este valor é a soma de dois indicadores: 16% são páginas individualmente inacessíveis em sites ativos e outros 9% de páginas são inacessíveis porque todo o site deixou de existir. É lógico que a maior parte dos recursos atualmente inacessíveis sejam de versões mais antigas dos arquivos (38% das páginas selecionadas que existiam em 2013 deixaram de funcionar em outubro de 2023).

Links em sites governamentais

Fonte da imagem: Pew Research Center

Para analisar este segmento do espaço online, foram selecionadas cerca de 500 mil páginas de sites governamentais do arquivo Common Crawl de março a abril de 2023. No total, as páginas selecionadas continham 42 milhões de links (86% links internos). Aproximadamente três quartos das páginas da web da amostra continham pelo menos um link, e a página média continha 50 links. Um total de 21% dos sites governamentais examinados continham pelo menos um link quebrado.

Links em portais de notícias

Fonte da imagem: Pew Research Center

Esta categoria analisou 500 mil páginas de 2.063 sites classificados pela comScore como Notícias e Informações. As páginas foram coletadas do arquivo Common Crawl de março a abril de 2023. No total, as páginas selecionadas continham 14 milhões de links (média de 20 links por página). Após a verificação, descobriu-se que 5% de todos os links da amostra não funcionam mais e 23% das páginas da amostra contêm pelo menos um link para um recurso inexistente. Cerca de 25% das páginas de sites de notícias entre os 20 principais em tráfego têm pelo menos um link quebrado.

Links de referência na Wikipedia

Os analistas selecionaram 50 mil páginas da Wikipédia em inglês e estudaram os links contidos na seção “Links”. Cerca de 82% das páginas continham pelo menos um link externo quebrado. No total, todas as páginas da amostra contêm mais de 1 milhão de links e 11% deles não estão mais acessíveis.

Postagens na rede social X

Fonte da imagem: Pew Research Center

O estudo envolveu 5 milhões de tweets publicados de 8 de março a 27 de abril de 2023 na rede social X, que na época se chamava Twitter. Os pesquisadores então monitoraram essas postagens até 15 de junho daquele ano e verificaram diariamente sua disponibilidade. Ao final do estudo, 18% da base inicial de tweets não estava mais visível na plataforma. Na maioria dos casos, isso foi consequência do bloqueio ou exclusão total da conta do autor.

Observa-se que a maioria dos tweets são excluídos do X dentro de um mês. Ao mesmo tempo, 1% das postagens desaparecem dentro de uma hora após a publicação, 3% – dentro de um dia, 10% – dentro de uma semana, 15% – dentro de um mês. Em outras palavras, cerca de metade dos tweets que desaparecem da plataforma ficam indisponíveis nos primeiros seis dias após a publicação, e 90% desses tweets desaparecem em 46 dias.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *