Várias empresas de IA estão a ignorar um padrão web aceite pela indústria que permite aos editores bloquear a recolha do seu conteúdo para inclusão em conjuntos de dados generativos de formação em IA. A Reuters relata isso.
Informações sobre ações ilegais de desenvolvedores de IA em relação a sites de mídia apareceram como parte de uma investigação pública realizada pela startup de IA Perplexity e pelo recurso Forbes, enquanto as empresas supostamente consideradas infratoras e vítimas não foram identificadas. A publicação empresarial acusou publicamente a Perplexity de plagiar seus materiais investigativos – os relatórios compilados pela IA generativa incluem materiais da Forbes sem pedir permissão ou citar os autores. O rastreador da web do Perplexity provavelmente ignorará as diretivas especificadas pelos editores em seu arquivo robots.txt, um padrão comum que ajuda os administradores do site a determinar quais seções os rastreadores podem rastrear.
O problema foi relatado pela TollBit, startup que atua como intermediária entre empresas de IA que precisam de materiais educacionais e editoras abertas a acordos de licenciamento. Perplexity não é o único infrator que supostamente ignora as diretivas do robots.txt, de acordo com a TollBit. O intermediário tem atualmente 50 editoras na sua base de dados e “quanto mais revistas de editoras aceitamos, mais este padrão se torna aparente”.
O protocolo robots.txt foi criado em meados dos anos noventa para proteger os sites contra sobrecargas causadas por robôs de busca. Não existe um mecanismo claro para impor legalmente o cumprimento das directivas dos ficheiros, mas historicamente elas têm sido seguidas voluntariamente. Recentemente, o robots.txt se tornou a principal ferramenta que os editores têm usado para impedir que seu conteúdo seja incluído gratuitamente em conjuntos de dados generativos de IA. Este conteúdo é usado para treinar a IA e criar resumos de informações em tempo real com base nela.
Alguns editores, incluindo o New York Times, estão tentando processar desenvolvedores de IA por violação de direitos autorais pelo uso de materiais para esses fins. Outros assinam acordos de licenciamento com criadores de IA. As partes muitas vezes discordam sobre o valor dos materiais – alguns desenvolvedores até argumentam que não estão infringindo as leis ao acessar materiais de mídia gratuitamente.