Categorias: Mercado de tecnologia e TI. notíciaNotícias da rede

Wikipédia lança conjunto de dados de treinamento de IA para impedir que bots sobrecarreguem seus servidores com scraping

A Wikimedia Foundation (a organização sem fins lucrativos que administra a Wikipédia) propôs que, em vez de extrair conteúdo da Wikipédia com bots, o que drena seus recursos e sobrecarrega seus servidores com tráfego, as empresas usem um conjunto de dados otimizado especificamente para treinar modelos de IA.

Fonte da imagem: Oberon Copeland @veryinformed.com/unsplash.com

A Wikimedia anunciou uma parceria com a Kaggle, uma plataforma líder para profissionais de ciência de dados e aprendizado de máquina de propriedade do Google. Como parte do acordo, uma versão beta do conjunto de dados “conteúdo estruturado da Wikipédia” em inglês e francês será publicada.

De acordo com a Wikimedia, o conjunto de dados hospedado pelo Kaggle foi “projetado com fluxos de trabalho de aprendizado de máquina em mente”, facilitando o acesso de desenvolvedores de IA a dados de artigos legíveis por máquina para modelagem, ajuste fino, benchmarking, alinhamento e análise. O conteúdo do conjunto de dados é licenciado abertamente. A partir de 15 de abril, o conjunto inclui resumos de pesquisas, resumos, links de imagens, dados de infobox e seções de artigos, mas exclui referências ou elementos não escritos, como arquivos de áudio.

Conforme relata a Wikimedia, as “representações JSON bem estruturadas do conteúdo da Wikipédia” disponíveis para os usuários do Kaggle devem ser uma alternativa mais atraente à “raspagem ou análise do texto bruto dos artigos”.

Atualmente, a Wikimedia tem acordos de compartilhamento de conteúdo com o Google e o Internet Archive, mas a parceria com a Kaggle tornará os dados mais acessíveis para empresas menores e cientistas de dados independentes. “Como o local ideal para a comunidade de aprendizado de máquina aprender sobre ferramentas e benchmarks, a Kaggle está animada em hospedar os dados da Wikimedia Foundation”, disse Brenda Flynn, líder de comunicações da Kaggle.

avalanche

Próximo A Seagate afirma que os HDDs são muito mais ecológicos do que os SSDs em termos de emissões de carbono »

Anterior « Motorola revela seu primeiro laptop — o compacto Moto Book 60 com OLED, Intel Core e Wi-Fi 7

Deixar comentário

Publicado por

avalanche

12 meses atrás

Postagens recentes

Sistemas operacionais

Deserto Carmesim — o Skyrim da Coreia do Sul. Análise / Jogos

19 de março de 2026 Jogado no PlayStation 5 Na primeira hora, o protagonista de…

1 hora atrás

Eletrônica vestível

Deserto Carmesim – O Skyrim da Coreia do Sul. Análise.

19 de março de 2026 Jogado no PlayStation 5 Na primeira hora, o protagonista de…

1 hora atrás

Eletrônica vestível

O primeiro relógio de pulso movido a energia solar do mundo completa 50 anos.

A Citizen comemorou o 50º aniversário do seu primeiro relógio de pulso analógico movido a…

5 horas atrás

Espaço

A NASA indignou empresas privadas ao abandonar estações orbitais comerciais – bilhões em investimentos estão em risco.

No evento do programa Ignition da NASA, em 24 de março, a agência propôs abandonar…

7 horas atrás

Mercado de TI

A pior semana do ano: gigantes da tecnologia perderam bilhões em valor de mercado devido à guerra e a problemas com a Meta.

O mercado de TI sofreu sua pior semana em quase um ano, com a queda…

7 horas atrás

Sistemas operacionais

O Apple Mac OS X celebrou seu aniversário de 25 anos.

Esta semana, o Mac OS X da Apple celebrou seu aniversário de 25 anos —…

7 horas atrás

Wikipédia lança conjunto de dados de treinamento de IA para impedir que bots sobrecarreguem seus servidores com scraping

Conteúdo relacionado

Postagens recentes

Deserto Carmesim — o Skyrim da Coreia do Sul. Análise / Jogos

Deserto Carmesim – O Skyrim da Coreia do Sul. Análise.

O primeiro relógio de pulso movido a energia solar do mundo completa 50 anos.

A NASA indignou empresas privadas ao abandonar estações orbitais comerciais – bilhões em investimentos estão em risco.

A pior semana do ano: gigantes da tecnologia perderam bilhões em valor de mercado devido à guerra e a problemas com a Meta.

O Apple Mac OS X celebrou seu aniversário de 25 anos.