Avaliar o volume de uma determinada plataforma da Internet é bastante problemático. No entanto, isso não impede os pesquisadores. Estes incluem o professor associado de Políticas Públicas, Comunicação e Informação do MIT, cofundador do agregador de blogs Global Voices, e o ativista e blogueiro da Internet Ethan Zuckerman, que e seus colegas estimam que mais de 13.325 bilhões de vídeos foram publicados no YouTube.

Fonte da imagem: Pixabay

Algumas plataformas online, como o Reddit, permitem há muitos anos a recolha de dados estatísticos através de APIs especiais. Com isso, os pesquisadores puderam entender, por exemplo, que parte dos usuários da plataforma tem interesse em memes ou criptomoedas, e que parte tem interesse em bem-estar mental e jogos de tabuleiro. No entanto, este ano o Reddit encerrou a capacidade de processar postagens publicadas no site. O mesmo fez a rede social X (antigo Twitter), que anteriormente permitia, através da API adequada, fazer uma amostra estatística de tweets, através da qual os investigadores pudessem perceber o que interessa aos utilizadores da rede social.

Por mais interessantes que sejam o Reddit e o X, eles são muito menos populares que o YouTube, que é onde quase todo mundo interage na Internet. Segundo a fonte, a hospedagem de vídeos do Google é usada atualmente por 93% dos adolescentes usuários da Internet. Os próximos usuários mais populares nesta faixa etária são o TikTok e o Snapchat, com os quais 63% e 60% dos adolescentes, respectivamente, interagem regularmente.

Embora o YouTube tenha uma API bem documentada, não existe uma maneira confiável de obter uma amostra aleatória e representativa do YouTube. Em vez disso, a maioria dos estudos no YouTube analisa uma coleção de vídeos (todos os vídeos nos canais de um conjunto selecionado de usuários) ou vídeos encontrados por meio de recomendações. Qualquer um desses métodos permitirá que você faça um bom estudo, mas nenhum deles permitirá calcular o tamanho do YouTube, ou seja, tente contar a quantidade de vídeos publicados na plataforma.

Para completar esta tarefa, os pesquisadores recorreram a Jason Baumgartner, que é o criador de um projeto de raspagem do Reddit chamado PushShift e tem amplo conhecimento de como trabalhar com APIs não documentadas para coletar dados. No caso do YouTube, foi uma ferramenta chamada InnerTube, que Jason usou para criar URLs aleatórios do YouTube e verificar se eles realmente existem. A URL do YouTube fica assim: https://www.youtube.com/watch?v=vXPJVwwEmiM onde os valores após “watch?v=” são alterados. Os primeiros 10 dos 11 caracteres do link podem consistir em letras maiúsculas e minúsculas do alfabeto inglês, números de 0 a 9 e o sinal “_”. O último caractere pode assumir apenas um dos 16 valores.

Fonte da imagem: tubestats.org

No final das contas, estimou-se que havia 264 URLs possíveis no YouTube (cerca de 18,4 quintilhões de links). Embora existam muitos vídeos no YouTube, é óbvio que não existem tantos. Se assumirmos que há 1 bilhão de vídeos no YouTube, então, se digitássemos URLs aleatoriamente, só conseguiríamos obter o endereço correto em uma das 18,4 bilhões de tentativas. Os pesquisadores chamaram esse método de “discagem bêbada”. Depois de otimizá-lo ao longo de vários meses, conseguiram identificar 10 mil vídeos verdadeiramente aleatórios na plataforma. Durante este trabalho, os pesquisadores também descobriram que o YouTube tende a recomendar vídeos que diferem significativamente dos vídeos “médios” da plataforma. O fato é que a plataforma recomenda vídeos com no mínimo 10 mil visualizações, enquanto o vídeo “médio” do site tem apenas 39 visualizações.

Voltando à “discagem bêbada”, os pesquisadores oferecem uma comparação: se você discar números no 413 no intervalo 413-000-0000 – 413-999-9999, terá que tentar 10 milhões de números possíveis. Se uma em cada 100 ligações for bem-sucedida, isso significa que 100 mil pessoas têm um número de telefone 413 na faixa mencionada.

No caso do YouTube, o “set bêbado” verificou simultaneamente cerca de 32 mil endereços e um “hit” foi registrado a cada 50 mil sets ou mais. Como resultado, os pesquisadores conseguiram calcular que o volume do YouTube é de 13.235.821.970 vídeos. Esta e outras estatísticas são atualizadas a cada poucas semanas em tubestat.org. Uma vez determinada a quantidade de vídeos na plataforma, os pesquisadores puderam calcular outras estatísticas. Por exemplo, observando a idade dos vídeos em uma amostra aleatória, você pode entender a rapidez com que o YouTube está crescendo. Os pesquisadores estimam que mais de 4 bilhões de novos vídeos foram publicados no site somente em 2023. Calculou-se também que a parcela de vídeos com mais de 10 mil visualizações representa apenas 4% do volume total de conteúdo postado no YouTube, mas ao mesmo tempo representam a maior parte do total de visualizações.

Mais importante ainda, os pesquisadores conseguiram criar uma maneira significativamente mais confiável de aprender sobre o YouTube do que o “conjunto de bêbados” mencionado anteriormente. O método de amostragem aleatória de vídeo é confiável porque itera sequencialmente por todo o espaço de endereço. Os pesquisadores pretendem continuar trabalhando com o YouTube, além de atualizar diversas estatísticas da plataforma. Dados mais detalhados do artigo de pesquisa de 85 páginas foram publicados recentemente no Journal for Quantitative Description.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *