Os desenvolvedores de IA foram pegos coletando dados de sites de mídia, apesar das proibições diretas

Várias empresas de IA estão a ignorar um padrão web aceite pela indústria que permite aos editores bloquear a recolha do seu conteúdo para inclusão em conjuntos de dados generativos de formação em IA. A Reuters relata isso.

Fonte da imagem: Gerd Altmann / pixabay.com

Informações sobre ações ilegais de desenvolvedores de IA em relação a sites de mídia apareceram como parte de uma investigação pública realizada pela startup de IA Perplexity e pelo recurso Forbes, enquanto as empresas supostamente consideradas infratoras e vítimas não foram identificadas. A publicação empresarial acusou publicamente a Perplexity de plagiar seus materiais investigativos – os relatórios compilados pela IA generativa incluem materiais da Forbes sem pedir permissão ou citar os autores. O rastreador da web do Perplexity provavelmente ignorará as diretivas especificadas pelos editores em seu arquivo robots.txt, um padrão comum que ajuda os administradores do site a determinar quais seções os rastreadores podem rastrear.

O problema foi relatado pela TollBit, startup que atua como intermediária entre empresas de IA que precisam de materiais educacionais e editoras abertas a acordos de licenciamento. Perplexity não é o único infrator que supostamente ignora as diretivas do robots.txt, de acordo com a TollBit. O intermediário tem atualmente 50 editoras na sua base de dados e “quanto mais revistas de editoras aceitamos, mais este padrão se torna aparente”.

O protocolo robots.txt foi criado em meados dos anos noventa para proteger os sites contra sobrecargas causadas por robôs de busca. Não existe um mecanismo claro para impor legalmente o cumprimento das directivas dos ficheiros, mas historicamente elas têm sido seguidas voluntariamente. Recentemente, o robots.txt se tornou a principal ferramenta que os editores têm usado para impedir que seu conteúdo seja incluído gratuitamente em conjuntos de dados generativos de IA. Este conteúdo é usado para treinar a IA e criar resumos de informações em tempo real com base nela.

Alguns editores, incluindo o New York Times, estão tentando processar desenvolvedores de IA por violação de direitos autorais pelo uso de materiais para esses fins. Outros assinam acordos de licenciamento com criadores de IA. As partes muitas vezes discordam sobre o valor dos materiais – alguns desenvolvedores até argumentam que não estão infringindo as leis ao acessar materiais de mídia gratuitamente.

avalanche

Postagens recentes

Reddit irá reprimir os criadores de conteúdo de treinamento de IA

A administração da plataforma Reddit anunciou que atualizará as exceções para robôs (arquivo robots.txt), que…

6 dias atrás

O desenvolvedor do Robotaxi, Cruise, é chefiado por um ex-executivo do Xbox

Marc Whitten, um engenheiro e veterano da indústria de jogos que esteve na vanguarda do…

6 dias atrás

Em resposta a inúmeras reclamações, o primeiro patch para Elden Ring: Shadow of the Erdtree tornou os jogadores mais fortes

A editora Bandai Namco e os desenvolvedores do estúdio FromSoftware anunciaram o lançamento do primeiro…

6 dias atrás