A Cloudflare anunciou planos para bloquear automaticamente bots web de propósito misto que indexam sites para mecanismos de busca e também atuam como agentes de IA, sendo usados para treinar modelos de inteligência artificial. Anteriormente, a empresa oferecia aos clientes a opção de definir essa política por conta própria; agora, a postura padrão será defensiva.

Fonte da imagem: Igor Omilaev / unsplash.com
“Agora que a maior parte do tráfego da internet não é gerada por humanos, precisamos ir além e agir mais rapidamente para fomentar um ecossistema sustentável. As novas ferramentas e parcerias da Cloudflare oferecem aos proprietários de sites maior visibilidade e oportunidades comerciais, além de beneficiar empresas de IA que utilizam bots com intenções claras e transparentes. Esperamos que as mudanças que propomos incentivem os bots de uso misto a separar, por padrão, as funções de busca, agente e treinamento”, explicou o CEO Matthew Prince.
As métricas de tráfego web, de forma geral, anteriormente refletiam pessoas visualizando anúncios ou pagando por assinaturas, mas o surgimento de modelos de IA capazes de visitar sites em nome dos usuários para obter informações relevantes revolucionou esse sistema. A Cloudflare está trabalhando para restaurar um equilíbrio justo tanto para os desenvolvedores de IA quanto para os proprietários de sites.
A partir de 15 de setembro, todos os novos clientes da Cloudflare e todos os novos sites de clientes existentes terão como padrão “permitir buscas, mas bloquear o treinamento e o uso de agentes em páginas com anúncios”. Os rastreadores de uso misto, que não oferecem aos proprietários de sites a opção de escolher se seus recursos serão usados para IA, serão bloqueados por padrão em páginas com anúncios. Usuários com contas gratuitas também passarão a usar essa configuração padrão, a menos que optem por desativá-la até o prazo de 15 de setembro.
A Cloudflare também está lançando um recurso de “Pagamento por Uso”, que permitirá aos proprietários de sites…Receba pagamentos sempre que seu conteúdo aparecer nas respostas do chatbot de IA. Até o momento, a empresa firmou parcerias com a Ceramic.AI e a You.com, mas espera que outros desenvolvedores se juntem à iniciativa.
O mecanismo padrão de bloqueio de bots de uso misto também atinge indiretamente o Google. “O maior mecanismo de busca do mundo tem acesso ao dobro de dados que os principais desenvolvedores de IA, porque dificulta que seus clientes permaneçam pesquisáveis sem serem usados para IA”, observou a Cloudflare. O Googlebot, principal rastreador da web do Google, indexa sites para os mecanismos de busca da empresa, coleta dados para treinar o Gemini e alimenta recursos como o mecanismo de busca “Modo IA” e as “Avaliações com IA” nos resultados de pesquisa. Há também outro rastreador da web, o Google Extended, usado exclusivamente para resultados de pesquisa tradicionais. Se o proprietário de um site quiser que seu recurso seja incluído na busca por IA, mas não quiser usar seu conteúdo para treinar a IA do Google, ele não tem essa opção. A nova política da Cloudflare é uma tentativa de forçar o Google e outras empresas que usam rastreadores de uso misto a mudarem suas táticas.