A Cloudflare atualizou o robots.txt: os sites agora podem impedir que chatbots de IA roubem conteúdo.

A Cloudflare anunciou suporte para novas diretivas para o arquivo robots.txt, levando em consideração que os sites agora são visitados não apenas por robôs de mecanismos de busca, mas também por chatbots de inteligência artificial.

Fonte da imagem: cloudflare.com

Um arquivo robots.txt pode ser encontrado em quase todos os sites. Ele contém diretivas sobre quais páginas os mecanismos de busca e bots podem ou não visitar. Embora esses requisitos sejam tecnicamente opcionais, nos primórdios da internet, quando serviços como o Google os cumpriam, não havia problemas. O advento da IA ​​mudou tudo: os chatbots não indexam sites no sentido tradicional, mas copiam seu conteúdo para aprender ou gerar respostas.

Os sistemas de muitas empresas de IA simplesmente ignoram o robots.txt ou se disfarçam de bots de mecanismos de busca para contornar as restrições. A Cloudflare protege aproximadamente 20% dos recursos da internet e a empresa tem a capacidade de monitorar esses processos em larga escala. Por isso, introduziu a Política de Sinais de Conteúdo — uma nova maneira para os proprietários de sites determinarem se permitem que a IA acesse seu conteúdo.

A nova política é baseada nas novas instruções do robots.txt. Há três opções disponíveis:

Fonte da imagem: Steve Johnson / unsplash.com

Cada uma dessas diretivas pode assumir o valor “sim” ou “não”. Isso significa que o proprietário de um site pode permitir que seu conteúdo apareça nos resultados de pesquisa, mas proibir o treinamento de IA nesse conteúdo. A Cloudflare já implementou esse recurso em mais de 3,8 milhões de domínios. Por padrão, esse valor é definido como “sim” para resultados de pesquisa, “não” para resultados de resposta de IA e “não” para resultados de treinamento, deixando a decisão para o proprietário do site.

A Cloudflare considera essas diretivas juridicamente vinculativas, o que significa que podem ser usadas em processos judiciais contra desenvolvedores de IA. Se a maioria dos desenvolvedores de IA começar a cumpri-las, um novo padrão de fato será estabelecido na internet. Caso contrário, conflitos com bloqueios e ações judiciais podem surgir. O Google pode se mostrar um player problemático, já que seu Googlebot é usado tanto para indexação de sites quanto para funções de IA, o que significa que os proprietários de sites não têm como optar por não usar as soluções suportadas pela gigante da tecnologia sem perder classificações de pesquisa.

Por enquanto, a regulamentação do setor de IA permanece extremamente fragmentada. O gerador de vídeo Sora 2 da OpenAI demonstrou ser capaz de recriar completamente missões de Cyberpunk 2077, embora seja improvável que a empresa tenha concedido permissão para usar esse conteúdo. O mesmo se aplica a personagens como Mario e Pikachu, embora a Nintendo raramente entre em conflito com grandes nomes.

A Cloudflare está testando um recurso de “pagamento por rastreamento”, permitindo que proprietários de sites cobrem pelo acesso de bots aos seus recursos. Se você tentar acesso gratuito, será prejudicado.O sistema exibirá o erro 402 – “Pagamento necessário”.

admin

Postagens recentes

A Apple lançará um aplicativo Siri separado para iOS 27 e macOS 27.

Segundo Mark Gurman, da Bloomberg, a Apple planeja lançar o primeiro aplicativo Siri independente como…

2 horas atrás

A OpenAI encerrou abruptamente o Sora, o gerador viral de sátiras com IA.

A OpenAI decidiu inesperadamente encerrar seu aplicativo de criação de vídeos com inteligência artificial, o…

2 horas atrás

NVIDIA Groq 3: SRAM, desagregação, determinismo

As LPUs da Groq são fundamentalmente diferentes dos aceleradores de IA da NVIDIA, mas são…

4 horas atrás

A primeira cerveja do mundo feita com CO₂ extraído diretamente do ar ambiente foi lançada nos EUA.

Pela primeira vez no mundo, a cerveja foi carbonatada com dióxido de carbono (CO₂) capturado…

5 horas atrás