A Cloudflare atualizou o robots.txt: os sites agora podem impedir que chatbots de IA roubem conteúdo.

A Cloudflare anunciou suporte para novas diretivas para o arquivo robots.txt, levando em consideração que os sites agora são visitados não apenas por robôs de mecanismos de busca, mas também por chatbots de inteligência artificial.

Fonte da imagem: cloudflare.com

Um arquivo robots.txt pode ser encontrado em quase todos os sites. Ele contém diretivas sobre quais páginas os mecanismos de busca e bots podem ou não visitar. Embora esses requisitos sejam tecnicamente opcionais, nos primórdios da internet, quando serviços como o Google os cumpriam, não havia problemas. O advento da IA ​​mudou tudo: os chatbots não indexam sites no sentido tradicional, mas copiam seu conteúdo para aprender ou gerar respostas.

Os sistemas de muitas empresas de IA simplesmente ignoram o robots.txt ou se disfarçam de bots de mecanismos de busca para contornar as restrições. A Cloudflare protege aproximadamente 20% dos recursos da internet e a empresa tem a capacidade de monitorar esses processos em larga escala. Por isso, introduziu a Política de Sinais de Conteúdo — uma nova maneira para os proprietários de sites determinarem se permitem que a IA acesse seu conteúdo.

A nova política é baseada nas novas instruções do robots.txt. Há três opções disponíveis:

Fonte da imagem: Steve Johnson / unsplash.com

Cada uma dessas diretivas pode assumir o valor “sim” ou “não”. Isso significa que o proprietário de um site pode permitir que seu conteúdo apareça nos resultados de pesquisa, mas proibir o treinamento de IA nesse conteúdo. A Cloudflare já implementou esse recurso em mais de 3,8 milhões de domínios. Por padrão, esse valor é definido como “sim” para resultados de pesquisa, “não” para resultados de resposta de IA e “não” para resultados de treinamento, deixando a decisão para o proprietário do site.

A Cloudflare considera essas diretivas juridicamente vinculativas, o que significa que podem ser usadas em processos judiciais contra desenvolvedores de IA. Se a maioria dos desenvolvedores de IA começar a cumpri-las, um novo padrão de fato será estabelecido na internet. Caso contrário, conflitos com bloqueios e ações judiciais podem surgir. O Google pode se mostrar um player problemático, já que seu Googlebot é usado tanto para indexação de sites quanto para funções de IA, o que significa que os proprietários de sites não têm como optar por não usar as soluções suportadas pela gigante da tecnologia sem perder classificações de pesquisa.

Por enquanto, a regulamentação do setor de IA permanece extremamente fragmentada. O gerador de vídeo Sora 2 da OpenAI demonstrou ser capaz de recriar completamente missões de Cyberpunk 2077, embora seja improvável que a empresa tenha concedido permissão para usar esse conteúdo. O mesmo se aplica a personagens como Mario e Pikachu, embora a Nintendo raramente entre em conflito com grandes nomes.

A Cloudflare está testando um recurso de “pagamento por rastreamento”, permitindo que proprietários de sites cobrem pelo acesso de bots aos seus recursos. Se você tentar acesso gratuito, será prejudicado.O sistema exibirá o erro 402 – “Pagamento necessário”.

admin

Postagens recentes

A UKPN começará a aquecer as casas dos pobres britânicos com centenas de Raspberry Pis.

Como parte do programa SHIELD (Calor Inteligente e Energia Inteligente em Áreas de Baixa Renda),…

21 minutos atrás

Descobriu-se que os melhores aceleradores de IA da Huawei continham chips da TSMC, Samsung e SK Hynix, que não deveriam estar na China.

A Huawei Technologies está usando componentes semicondutores avançados da TSMC, Samsung e SK Hynix em…

1 hora atrás

Jeff Bezos: IA é uma “bolha industrial”, mas ajudará a humanidade

A inteligência artificial pode ser atualmente uma "bolha", mas a tecnologia é "real" e trará…

1 hora atrás

Vídeo: Carro elétrico Xiaomi SU7 liga sozinho e tenta fugir dos donos

Um incidente notável ocorreu em 30 de setembro na província chinesa de Shandong: um carro…

2 horas atrás