Mineradores de dados de IA são encontrados causando lentidão massiva na Internet

A plataforma de hospedagem Git de código aberto SourceHut disse que seus serviços foram prejudicados por rastreadores da web executados por empresas de inteligência artificial. Reclamações semelhantes vêm cada vez mais de proprietários de outros recursos.

Fonte da imagem: Kai Wenzel/unsplash.com

Para limitar o tráfego de bots de IA, a SourceHut teve que implantar o Nepenthes, uma defesa contra rastreadores da web desonestos que coletam dados para treinar modelos de IA. A administração da plataforma bloqueou unilateralmente todos os intervalos de endereços de vários provedores de nuvem, incluindo Google Cloud e Microsoft Azure, devido ao volume excessivo de tráfego de bots implantados em suas redes. Proprietários de serviços genuínos nessas infraestruturas foram orientados a entrar em contato com a administração da SourceHut individualmente para adicioná-los às exceções. Em 2022, a SourceHut também sofreu com solicitações excessivas de recursos do serviço Go Module Mirror do Google.

Em 2023, a OpenAI prometeu que seus bots seguiriam as diretrizes dos arquivos robots.txt, que especificam as regras para processamento de dados de sites por rastreadores da web. Outros desenvolvedores de IA assumiram compromissos semelhantes, mas reclamações de abuso continuam chegando. No verão passado, o site iFixit, em particular, foi invadido pelo bot Anthropic Claudebot. Em dezembro, o host Vercel relatou uma presença significativa de rastreadores de IA em sua infraestrutura: o OpenAI GPTbot enviou 569 milhões de solicitações para sua rede, enquanto o Anthropic Claude enviou 370 milhões. Juntos, eles foram responsáveis ​​por cerca de 20% das 4,5 bilhões de solicitações que o Googlebot usa para indexar recursos no Google.

Fonte da imagem: Kai Wenzel/unsplash.com

Ao mesmo tempo, o desenvolvedor da rede social distribuída Diaspora, Dennis Schubert, reclamou que, nos últimos 60 dias, os bots de IA foram responsáveis ​​por 70% do tráfego para seu servidor. A postagem se tornou viral e a atividade do rastreador de IA caiu drasticamente; No entanto, hooligans online lançaram uma invasão massiva de solicitações de clientes com o valor da string do agente do usuário correspondente ao OpenAI GPTbot. Mas o verdadeiro bot de IA da OpenAI envia solicitações da infraestrutura do Microsoft Azure e, no caso do servidor Diaspora, elas vieram de endereços da AWS e até mesmo de ISPs americanos.

Às vezes a situação é complicada pelo fato de que alguns bots têm múltiplas finalidades. Assim, o bot Meta✴ AI e o AppleBot coletam dados exclusivamente para treinamento de IA, enquanto o GoogleBot atende tanto à IA quanto à indexação de pesquisa. Para evitar confusão, o Google adicionou um valor Google-Extended separado para ferramentas de treinamento de IA em 2023.

avalanche

Postagens recentes

Ryzen e DDR5-6000 em chips Samsung – G.Skill dá o sinal verde / Processadores e Memória

O mercado de memória RAM está passando por momentos desafiadores. O boom da IA ​​transformou…

2 horas atrás

A próxima parte de Hellblade recebeu o título abreviado de Senua – é um jogo de ação e aventura completo.

A desenvolvedora Ninja Theory, com o apoio da publicadora Xbox Game Studios, anunciou Senua, um…

3 horas atrás

Os donos de PS5 ficarão sem Clockwork Revolution – o RPG steampunk dos criadores de Wasteland foi revelado como um novo exclusivo do Xbox.

O RPG steampunk Clockwork Revolution, da empresa americana inXile Entertainment (série Wasteland), recebeu um novo…

4 horas atrás

Gears of War: E-Day será lançado em 6 de outubro para PC e Xbox, mas não para PS5 — o jogo de ação será exclusivo para consoles da Microsoft.

A apresentação Xbox Games Showcase 2026 começou com uma demonstração de jogabilidade do jogo de…

4 horas atrás

A Atlus confirmou a data de lançamento de Persona 4 Revival e anunciou Persona 6.

No Xbox Games Showcase 2026, a Atlus, editora e desenvolvedora, anunciou a data de lançamento…

4 horas atrás

O jogo de tiro pós-apocalíptico Metro 2039 será lançado em fevereiro de 2027 – novo trailer de gameplay

A editora Deep Silver e a desenvolvedora 4A Games lançaram um novo trailer para seu…

4 horas atrás