Os desenvolvedores de IA foram pegos coletando dados de sites de mídia, apesar das proibições diretas

Várias empresas de IA estão a ignorar um padrão web aceite pela indústria que permite aos editores bloquear a recolha do seu conteúdo para inclusão em conjuntos de dados generativos de formação em IA. A Reuters relata isso.

Fonte da imagem: Gerd Altmann / pixabay.com

Informações sobre ações ilegais de desenvolvedores de IA em relação a sites de mídia apareceram como parte de uma investigação pública realizada pela startup de IA Perplexity e pelo recurso Forbes, enquanto as empresas supostamente consideradas infratoras e vítimas não foram identificadas. A publicação empresarial acusou publicamente a Perplexity de plagiar seus materiais investigativos – os relatórios compilados pela IA generativa incluem materiais da Forbes sem pedir permissão ou citar os autores. O rastreador da web do Perplexity provavelmente ignorará as diretivas especificadas pelos editores em seu arquivo robots.txt, um padrão comum que ajuda os administradores do site a determinar quais seções os rastreadores podem rastrear.

O problema foi relatado pela TollBit, startup que atua como intermediária entre empresas de IA que precisam de materiais educacionais e editoras abertas a acordos de licenciamento. Perplexity não é o único infrator que supostamente ignora as diretivas do robots.txt, de acordo com a TollBit. O intermediário tem atualmente 50 editoras na sua base de dados e “quanto mais revistas de editoras aceitamos, mais este padrão se torna aparente”.

O protocolo robots.txt foi criado em meados dos anos noventa para proteger os sites contra sobrecargas causadas por robôs de busca. Não existe um mecanismo claro para impor legalmente o cumprimento das directivas dos ficheiros, mas historicamente elas têm sido seguidas voluntariamente. Recentemente, o robots.txt se tornou a principal ferramenta que os editores têm usado para impedir que seu conteúdo seja incluído gratuitamente em conjuntos de dados generativos de IA. Este conteúdo é usado para treinar a IA e criar resumos de informações em tempo real com base nela.

Alguns editores, incluindo o New York Times, estão tentando processar desenvolvedores de IA por violação de direitos autorais pelo uso de materiais para esses fins. Outros assinam acordos de licenciamento com criadores de IA. As partes muitas vezes discordam sobre o valor dos materiais – alguns desenvolvedores até argumentam que não estão infringindo as leis ao acessar materiais de mídia gratuitamente.

avalanche

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

3 horas atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

3 horas atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

3 horas atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

4 horas atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

4 horas atrás