Os desenvolvedores de IA foram pegos coletando dados de sites de mídia, apesar das proibições diretas

Várias empresas de IA estão a ignorar um padrão web aceite pela indústria que permite aos editores bloquear a recolha do seu conteúdo para inclusão em conjuntos de dados generativos de formação em IA. A Reuters relata isso.

Fonte da imagem: Gerd Altmann / pixabay.com

Informações sobre ações ilegais de desenvolvedores de IA em relação a sites de mídia apareceram como parte de uma investigação pública realizada pela startup de IA Perplexity e pelo recurso Forbes, enquanto as empresas supostamente consideradas infratoras e vítimas não foram identificadas. A publicação empresarial acusou publicamente a Perplexity de plagiar seus materiais investigativos – os relatórios compilados pela IA generativa incluem materiais da Forbes sem pedir permissão ou citar os autores. O rastreador da web do Perplexity provavelmente ignorará as diretivas especificadas pelos editores em seu arquivo robots.txt, um padrão comum que ajuda os administradores do site a determinar quais seções os rastreadores podem rastrear.

O problema foi relatado pela TollBit, startup que atua como intermediária entre empresas de IA que precisam de materiais educacionais e editoras abertas a acordos de licenciamento. Perplexity não é o único infrator que supostamente ignora as diretivas do robots.txt, de acordo com a TollBit. O intermediário tem atualmente 50 editoras na sua base de dados e “quanto mais revistas de editoras aceitamos, mais este padrão se torna aparente”.

O protocolo robots.txt foi criado em meados dos anos noventa para proteger os sites contra sobrecargas causadas por robôs de busca. Não existe um mecanismo claro para impor legalmente o cumprimento das directivas dos ficheiros, mas historicamente elas têm sido seguidas voluntariamente. Recentemente, o robots.txt se tornou a principal ferramenta que os editores têm usado para impedir que seu conteúdo seja incluído gratuitamente em conjuntos de dados generativos de IA. Este conteúdo é usado para treinar a IA e criar resumos de informações em tempo real com base nela.

Alguns editores, incluindo o New York Times, estão tentando processar desenvolvedores de IA por violação de direitos autorais pelo uso de materiais para esses fins. Outros assinam acordos de licenciamento com criadores de IA. As partes muitas vezes discordam sobre o valor dos materiais – alguns desenvolvedores até argumentam que não estão infringindo as leis ao acessar materiais de mídia gratuitamente.

avalanche

Postagens recentes

Arm buscará um novo julgamento de violações de licença da Qualcomm

A holding britânica Arm anunciou a intenção de buscar um novo julgamento da ação contra…

2 horas atrás

Os japoneses propuseram remover o calor dos chips das placas-mãe com grandes rebites de cobre

A empresa japonesa OKI Circuit Technology, que produz placas de circuito impresso há mais de…

3 horas atrás

WhatsApp vence processo contra desenvolvedor de spyware Pegasus

O mensageiro WhatsApp anunciou uma vitória legal sobre o desenvolvedor do spyware Pegasus, representado pela…

5 horas atrás

A primeira estação espacial privada aparecerá dois anos antes, mas não será possível voar até ela

Recentemente, a NASA revisou os planos para criar uma estação espacial privada, cujo contrato de…

5 horas atrás