Wikipédia lança conjunto de dados de treinamento de IA para impedir que bots sobrecarreguem seus servidores com scraping

A Wikimedia Foundation (a organização sem fins lucrativos que administra a Wikipédia) propôs que, em vez de extrair conteúdo da Wikipédia com bots, o que drena seus recursos e sobrecarrega seus servidores com tráfego, as empresas usem um conjunto de dados otimizado especificamente para treinar modelos de IA.

Fonte da imagem: Oberon Copeland @veryinformed.com/unsplash.com

A Wikimedia anunciou uma parceria com a Kaggle, uma plataforma líder para profissionais de ciência de dados e aprendizado de máquina de propriedade do Google. Como parte do acordo, uma versão beta do conjunto de dados “conteúdo estruturado da Wikipédia” em inglês e francês será publicada.

De acordo com a Wikimedia, o conjunto de dados hospedado pelo Kaggle foi “projetado com fluxos de trabalho de aprendizado de máquina em mente”, facilitando o acesso de desenvolvedores de IA a dados de artigos legíveis por máquina para modelagem, ajuste fino, benchmarking, alinhamento e análise. O conteúdo do conjunto de dados é licenciado abertamente. A partir de 15 de abril, o conjunto inclui resumos de pesquisas, resumos, links de imagens, dados de infobox e seções de artigos, mas exclui referências ou elementos não escritos, como arquivos de áudio.

Conforme relata a Wikimedia, as “representações JSON bem estruturadas do conteúdo da Wikipédia” disponíveis para os usuários do Kaggle devem ser uma alternativa mais atraente à “raspagem ou análise do texto bruto dos artigos”.

Atualmente, a Wikimedia tem acordos de compartilhamento de conteúdo com o Google e o Internet Archive, mas a parceria com a Kaggle tornará os dados mais acessíveis para empresas menores e cientistas de dados independentes. “Como o local ideal para a comunidade de aprendizado de máquina aprender sobre ferramentas e benchmarks, a Kaggle está animada em hospedar os dados da Wikimedia Foundation”, disse Brenda Flynn, líder de comunicações da Kaggle.

avalanche

Postagens recentes

A direção da Samsung não atendeu às reivindicações do sindicato, e a ameaça de greve se intensificou.

A intervenção de uma comissão governamental como mediadora nas negociações entre a direção da Samsung…

1 hora atrás

O iOS 27 contará com um novo gesto para iniciar a busca através da Ilha Dinâmica.

A Bloomberg publicou detalhes sobre a Siri, a assistente de voz redesenhada para o iOS…

2 horas atrás

O Google anunciou que smartphones Android agora poderão transferir arquivos para iPhones via AirDrop.

Em novembro passado, o Google habilitou o suporte para transferência de arquivos via AirDrop na…

7 horas atrás

O Google está em negociações com a SpaceX para lançar centros de dados orbitais como parte de seu programa Suncatcher.

O Google e a SpaceX estão em negociações para lançar centros de dados em órbita…

8 horas atrás

O Google anunciou os laptops Googlebook – uma evolução dos Chromebooks com recursos de inteligência artificial e uma combinação de Android e ChromeOS.

O Google anunciou uma nova linha de laptops chamada Googlebook. A apresentação completa dos dispositivos…

9 horas atrás

“Rápido, brutal e intransigentemente à moda antiga”: Nailcrown, um jogo de tiro retrô com estética de fantasia sombria, foi anunciado.

A desenvolvedora Destructive Creations (Hatred, War Mongrels), com o apoio da editora Bohemia Interactive, anunciou…

9 horas atrás