A administração da plataforma Reddit anunciou que atualizará as exceções para robôs (arquivo robots.txt), que informam aos web bots se eles estão autorizados ou proibidos de rastrear o site e suas seções. O recurso também tomará medidas para realmente restringir o acesso a alguns bots.
Tradicionalmente, o arquivo robots.txt era usado para ajudar os mecanismos de pesquisa a rastrear um site corretamente. Mas com o desenvolvimento de sistemas de inteligência artificial, surgiram bots que bombeiam todo o conteúdo do site para treinar modelos sem indicar a origem desse conteúdo. Portanto, juntamente com a atualização do arquivo robots.txt, a administração do Reddit continuará limitando a velocidade de bots desconhecidos e bloqueando seu acesso à plataforma – medidas serão tomadas caso esses sistemas não cumpram a “Política de Conteúdo Público” no site. site.
O novo modo de operação não deve afetar a maioria dos usuários e participantes genuínos do recurso, incluindo pesquisadores e organizações sem fins lucrativos como o Internet Archive, disse a administração do Reddit. As medidas são introduzidas apenas para evitar que outras empresas treinem grandes modelos de linguagem de IA no conteúdo da plataforma. A administração de recursos emitiu um comunicado depois que se soube que a startup de IA Perplexity estava coletando conteúdo contrário às diretivas do robots.txt – o CEO da empresa, Aravind Srinivas, disse que essas diretivas não são uma obrigação legal.
As próximas mudanças do Reddit não afetarão os parceiros que firmaram acordos com a plataforma: Google e OpenAI treinam seus modelos de IA no conteúdo do recurso mediante o pagamento de uma taxa. No ano passado, o Reddit introduziu taxas de acesso à API para proteger contra a coleta não autorizada de conteúdo, o que causou protestos em massa entre os usuários.