Wikipédia lança conjunto de dados de treinamento de IA para impedir que bots sobrecarreguem seus servidores com scraping

A Wikimedia Foundation (a organização sem fins lucrativos que administra a Wikipédia) propôs que, em vez de extrair conteúdo da Wikipédia com bots, o que drena seus recursos e sobrecarrega seus servidores com tráfego, as empresas usem um conjunto de dados otimizado especificamente para treinar modelos de IA.

Fonte da imagem: Oberon Copeland @veryinformed.com/unsplash.com

A Wikimedia anunciou uma parceria com a Kaggle, uma plataforma líder para profissionais de ciência de dados e aprendizado de máquina de propriedade do Google. Como parte do acordo, uma versão beta do conjunto de dados “conteúdo estruturado da Wikipédia” em inglês e francês será publicada.

De acordo com a Wikimedia, o conjunto de dados hospedado pelo Kaggle foi “projetado com fluxos de trabalho de aprendizado de máquina em mente”, facilitando o acesso de desenvolvedores de IA a dados de artigos legíveis por máquina para modelagem, ajuste fino, benchmarking, alinhamento e análise. O conteúdo do conjunto de dados é licenciado abertamente. A partir de 15 de abril, o conjunto inclui resumos de pesquisas, resumos, links de imagens, dados de infobox e seções de artigos, mas exclui referências ou elementos não escritos, como arquivos de áudio.

Conforme relata a Wikimedia, as “representações JSON bem estruturadas do conteúdo da Wikipédia” disponíveis para os usuários do Kaggle devem ser uma alternativa mais atraente à “raspagem ou análise do texto bruto dos artigos”.

Atualmente, a Wikimedia tem acordos de compartilhamento de conteúdo com o Google e o Internet Archive, mas a parceria com a Kaggle tornará os dados mais acessíveis para empresas menores e cientistas de dados independentes. “Como o local ideal para a comunidade de aprendizado de máquina aprender sobre ferramentas e benchmarks, a Kaggle está animada em hospedar os dados da Wikimedia Foundation”, disse Brenda Flynn, líder de comunicações da Kaggle.

avalanche

Postagens recentes

Foram divulgadas as primeiras análises do console portátil MSI Claw 8 EX AI+ com Intel Arc G3: rápido, mas muito caro.

Analistas independentes publicaram seus primeiros testes do novo console portátil para jogos MSI Claw 8…

2 horas atrás

Nada revelará o smartphone Phone (4b) em 7 de julho.

Nada foi confirmado se o primeiro smartphone da série "(b)" será de fato lançado com…

2 horas atrás

O brutal jogo de estratégia medieval Stronghold 4 recebeu uma demo gratuita no Steam.

O estúdio britânico Firefly, pertencente à Devolver Digital, anunciou o lançamento de uma demo prometida…

3 horas atrás

A Microsoft começou a forçar a atualização do Windows 11 para a versão 25H2 em todos os PCs compatíveis.

A Microsoft expandiu discretamente o programa de implantação inteligente do Windows 11 25H2 para incluir…

4 horas atrás