Um dos projetos mais importantes da Fundação Wikimedia é o Wikidata, um banco de dados central que armazena as informações mais importantes: textos, imagens, palavras-chave e outros dados. Esses dados são apresentados tanto como páginas da web quanto no formato JSON legível por máquina. Agora, esse banco de dados será expandido para um formato vetorial compatível com inteligência artificial.
Fonte da imagem: Luke Chesser / unsplash.com
Uma representação vetorial do Wikidata simplificará o processamento de informações de bancos de dados por grandes modelos de linguagem. Participantes do Projeto de Incorporação da Wikipédia, na filial alemã da Fundação Wikimedia, estão trabalhando nessa tarefa. No ano passado, a equipe de Berlim utilizou um grande modelo de linguagem para transformar 19 milhões de entradas estruturadas do Wikidata em um formato vetorial que captura o contexto e o significado de cada elemento no banco de dados. Uma entrada vetorial pode ser representada como um gráfico com nós e links entre eles.
A interface do usuário da enciclopédia online permanecerá a mesma, e a Wikipédia não se transformará em um chatbot, prometem seus criadores. No entanto, isso facilitará o acesso dos desenvolvedores de IA aos dados de origem, por exemplo, caso queiram construir seus próprios chatbots com base nesses dados. O objetivo do projeto é nivelar o campo de atuação para desenvolvedores de IA não afiliados a gigantes da tecnologia e sem suas capacidades, visto que a OpenAI e a Anthropic já possuem os recursos para vetorizar o Wikidata. Os membros da Fundação Wikimedia também esperam que o acesso mais fácil a esse banco de dados ajude a criar sistemas de IA que expressem informações de forma mais eficaz sobre tópicos altamente especializados e pouco representados online.
O banco de dados de vetores do Wikidata será útil para criar, por exemplo, derivados do chatbot ChatGPT, e os usuários não precisarão esperar que o OpenAI treine novamente o principal, sem garantia de que a contribuição de cada voluntário será levada em consideração. Na prática, as representações vetoriais de dados ajudam a IA a processar de forma mais eficaz não apenas as informações necessárias, mas também o contexto.O projeto está vinculado ao conjunto de dados. A vetorização é realizada utilizando o modelo Jina AI. A fonte de informações é o banco de dados estruturado Wikidata, de 18 de setembro de 2024. Os serviços gratuitos de armazenamento de dados para o projeto são fornecidos pela divisão DataStax da IBM. O banco de dados vetorial será atualizado, mas antes de adicionar informações do ano passado, os participantes do projeto esperam receber feedback dos desenvolvedores.
Eben Upton, diretor de operações da empresa de computadores de placa única Raspberry Pi, anunciou…
A YADRO anunciou o lançamento do NVMe sobre TCP (Memória Não Volátil Expressa sobre TCP),…
A Epic Games informou que o novo processo da Apple para instalação de lojas de…
O juiz Edward Davila, do Tribunal Distrital Federal de San Jose, Califórnia, negou os pedidos…
No final do mês passado, um tribunal federal dos EUA decidiu que o Departamento de…
O boom da IA, como sabemos, começou a elevar os preços não apenas de HBM…