Wikipédia lança conjunto de dados de treinamento de IA para impedir que bots sobrecarreguem seus servidores com scraping

A Wikimedia Foundation (a organização sem fins lucrativos que administra a Wikipédia) propôs que, em vez de extrair conteúdo da Wikipédia com bots, o que drena seus recursos e sobrecarrega seus servidores com tráfego, as empresas usem um conjunto de dados otimizado especificamente para treinar modelos de IA.

Fonte da imagem: Oberon Copeland @veryinformed.com/unsplash.com

A Wikimedia anunciou uma parceria com a Kaggle, uma plataforma líder para profissionais de ciência de dados e aprendizado de máquina de propriedade do Google. Como parte do acordo, uma versão beta do conjunto de dados “conteúdo estruturado da Wikipédia” em inglês e francês será publicada.

De acordo com a Wikimedia, o conjunto de dados hospedado pelo Kaggle foi “projetado com fluxos de trabalho de aprendizado de máquina em mente”, facilitando o acesso de desenvolvedores de IA a dados de artigos legíveis por máquina para modelagem, ajuste fino, benchmarking, alinhamento e análise. O conteúdo do conjunto de dados é licenciado abertamente. A partir de 15 de abril, o conjunto inclui resumos de pesquisas, resumos, links de imagens, dados de infobox e seções de artigos, mas exclui referências ou elementos não escritos, como arquivos de áudio.

Conforme relata a Wikimedia, as “representações JSON bem estruturadas do conteúdo da Wikipédia” disponíveis para os usuários do Kaggle devem ser uma alternativa mais atraente à “raspagem ou análise do texto bruto dos artigos”.

Atualmente, a Wikimedia tem acordos de compartilhamento de conteúdo com o Google e o Internet Archive, mas a parceria com a Kaggle tornará os dados mais acessíveis para empresas menores e cientistas de dados independentes. “Como o local ideal para a comunidade de aprendizado de máquina aprender sobre ferramentas e benchmarks, a Kaggle está animada em hospedar os dados da Wikimedia Foundation”, disse Brenda Flynn, líder de comunicações da Kaggle.

avalanche

Postagens recentes

A Anthropic está contestando judicialmente sua inclusão na lista negra.

A Anthropic prometeu recorrer da decisão do Departamento de Defesa dos EUA de incluí-la em…

19 minutos atrás

Os aplicativos de Smart TV estão consumindo dados da internet silenciosamente para treinar modelos de IA.

Empresas que coletam dados abertos da internet para treinar modelos de IA estão buscando cada…

56 minutos atrás

O aplicativo Claude alcançou o topo das paradas da App Store depois que o governo dos EUA atacou a Anthropic.

O aplicativo Claude da Anthropic para dispositivos iOS alcançou o primeiro lugar no ranking de…

2 horas atrás

As ações da Nvidia caíram 7% em uma semana, apesar de um relatório trimestral sólido.

Esta semana, a Nvidia não só divulgou uma receita trimestral recorde, superando as expectativas do…

6 horas atrás

As encomendas de produção de chips de 2nm da TSMC estão distribuídas pelos próximos dois anos.

A TSMC, de Taiwan, ultrapassou seus concorrentes no desenvolvimento de processos litográficos avançados, embora a…

7 horas atrás