Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Os desenvolvedores de IA foram pegos coletando dados de sites de mídia, apesar das proibições diretas

Várias empresas de IA estão a ignorar um padrão web aceite pela indústria que permite aos editores bloquear a recolha do seu conteúdo para inclusão em conjuntos de dados generativos de formação em IA. A Reuters relata isso.

Fonte da imagem: Gerd Altmann / pixabay.com

Informações sobre ações ilegais de desenvolvedores de IA em relação a sites de mídia apareceram como parte de uma investigação pública realizada pela startup de IA Perplexity e pelo recurso Forbes, enquanto as empresas supostamente consideradas infratoras e vítimas não foram identificadas. A publicação empresarial acusou publicamente a Perplexity de plagiar seus materiais investigativos – os relatórios compilados pela IA generativa incluem materiais da Forbes sem pedir permissão ou citar os autores. O rastreador da web do Perplexity provavelmente ignorará as diretivas especificadas pelos editores em seu arquivo robots.txt, um padrão comum que ajuda os administradores do site a determinar quais seções os rastreadores podem rastrear.

O problema foi relatado pela TollBit, startup que atua como intermediária entre empresas de IA que precisam de materiais educacionais e editoras abertas a acordos de licenciamento. Perplexity não é o único infrator que supostamente ignora as diretivas do robots.txt, de acordo com a TollBit. O intermediário tem atualmente 50 editoras na sua base de dados e “quanto mais revistas de editoras aceitamos, mais este padrão se torna aparente”.

O protocolo robots.txt foi criado em meados dos anos noventa para proteger os sites contra sobrecargas causadas por robôs de busca. Não existe um mecanismo claro para impor legalmente o cumprimento das directivas dos ficheiros, mas historicamente elas têm sido seguidas voluntariamente. Recentemente, o robots.txt se tornou a principal ferramenta que os editores têm usado para impedir que seu conteúdo seja incluído gratuitamente em conjuntos de dados generativos de IA. Este conteúdo é usado para treinar a IA e criar resumos de informações em tempo real com base nela.

Alguns editores, incluindo o New York Times, estão tentando processar desenvolvedores de IA por violação de direitos autorais pelo uso de materiais para esses fins. Outros assinam acordos de licenciamento com criadores de IA. As partes muitas vezes discordam sobre o valor dos materiais – alguns desenvolvedores até argumentam que não estão infringindo as leis ao acessar materiais de mídia gratuitamente.

avalanche

Próximo Os aplicativos iOS em breve terão tradução integrada via Apple Translate »

Anterior « A Unitree Robotics mostrou cães-robôs sendo abusados para fins de treinamento: eles foram chutados, atirados e espancados com paus

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

As ações dos fabricantes de DRAM se estabilizam após o impacto inicial do TurboQuant.

Esta semana, o Google apresentou o TurboQuant, seu método de compressão de dados para IA,…

1 hora atrás

Carros, motos, veículos

O lucro anual da BYD caiu pela primeira vez em quatro anos, expondo os horrores da guerra de preços na China.

A empresa chinesa BYD alcançou a liderança no mercado global de veículos elétricos, apesar de…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O último dos cofundadores deixou a xAI, restando apenas Elon Musk.

Em termos de migração de talentos, o setor de IA é o mais movimentado do…

2 horas atrás

Comentários sobre eventos recentes

Os fabricantes chineses de chips pretendem atingir 80% de substituição de importações até 2030.

Para a indústria chinesa de semicondutores, a dependência de tecnologia e equipamentos importados continua sendo…

3 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

O investimento de US$ 146 bilhões da Microsoft em inteligência artificial assustou os investidores e fez com que o preço de suas ações caísse 25%.

Em meio a gastos recordes em inteligência artificial, a Microsoft pode registrar seus piores resultados…

4 horas atrás

Notícias e análises financeiras

A revista Anthropic atraiu um número recorde de assinantes após o escândalo do Departamento de Defesa dos EUA.

O conflito com o Departamento de Defesa dos EUA e o anúncio humorístico contra o…