Um dos projetos mais importantes da Fundação Wikimedia é o Wikidata, um banco de dados central que armazena as informações mais importantes: textos, imagens, palavras-chave e outros dados. Esses dados são apresentados tanto como páginas da web quanto no formato JSON legível por máquina. Agora, esse banco de dados será expandido para um formato vetorial compatível com inteligência artificial.
Fonte da imagem: Luke Chesser / unsplash.com
Uma representação vetorial do Wikidata simplificará o processamento de informações de bancos de dados por grandes modelos de linguagem. Participantes do Projeto de Incorporação da Wikipédia, na filial alemã da Fundação Wikimedia, estão trabalhando nessa tarefa. No ano passado, a equipe de Berlim utilizou um grande modelo de linguagem para transformar 19 milhões de entradas estruturadas do Wikidata em um formato vetorial que captura o contexto e o significado de cada elemento no banco de dados. Uma entrada vetorial pode ser representada como um gráfico com nós e links entre eles.
A interface do usuário da enciclopédia online permanecerá a mesma, e a Wikipédia não se transformará em um chatbot, prometem seus criadores. No entanto, isso facilitará o acesso dos desenvolvedores de IA aos dados de origem, por exemplo, caso queiram construir seus próprios chatbots com base nesses dados. O objetivo do projeto é nivelar o campo de atuação para desenvolvedores de IA não afiliados a gigantes da tecnologia e sem suas capacidades, visto que a OpenAI e a Anthropic já possuem os recursos para vetorizar o Wikidata. Os membros da Fundação Wikimedia também esperam que o acesso mais fácil a esse banco de dados ajude a criar sistemas de IA que expressem informações de forma mais eficaz sobre tópicos altamente especializados e pouco representados online.
O banco de dados de vetores do Wikidata será útil para criar, por exemplo, derivados do chatbot ChatGPT, e os usuários não precisarão esperar que o OpenAI treine novamente o principal, sem garantia de que a contribuição de cada voluntário será levada em consideração. Na prática, as representações vetoriais de dados ajudam a IA a processar de forma mais eficaz não apenas as informações necessárias, mas também o contexto.O projeto está vinculado ao conjunto de dados. A vetorização é realizada utilizando o modelo Jina AI. A fonte de informações é o banco de dados estruturado Wikidata, de 18 de setembro de 2024. Os serviços gratuitos de armazenamento de dados para o projeto são fornecidos pela divisão DataStax da IBM. O banco de dados vetorial será atualizado, mas antes de adicionar informações do ano passado, os participantes do projeto esperam receber feedback dos desenvolvedores.
A grande maioria das criptomoedas roubadas desde o início de 2026 é usada para financiar…
As agências de cibersegurança dos EUA estão considerando reduzir drasticamente o tempo necessário para corrigir…
Em 24 de março de 2026, a NASA anunciou uma mudança na direção de seus…
Ontem, o Google publicou o COSMO, um "aplicativo experimental de assistente de IA para dispositivos…
Uma empresa não pode demitir um funcionário simplesmente para substituí-lo por inteligência artificial, decidiu um…
A Nebius, provedora de infraestrutura em nuvem, anunciou a aquisição da Eigen AI, uma startup…