O banco de dados da Wikimedia Foundation será convertido para o formato vetorial, facilitando a pesquisa para humanos e IA.

Um dos projetos mais importantes da Fundação Wikimedia é o Wikidata, um banco de dados central que armazena as informações mais importantes: textos, imagens, palavras-chave e outros dados. Esses dados são apresentados tanto como páginas da web quanto no formato JSON legível por máquina. Agora, esse banco de dados será expandido para um formato vetorial compatível com inteligência artificial.

Fonte da imagem: Luke Chesser / unsplash.com

Uma representação vetorial do Wikidata simplificará o processamento de informações de bancos de dados por grandes modelos de linguagem. Participantes do Projeto de Incorporação da Wikipédia, na filial alemã da Fundação Wikimedia, estão trabalhando nessa tarefa. No ano passado, a equipe de Berlim utilizou um grande modelo de linguagem para transformar 19 milhões de entradas estruturadas do Wikidata em um formato vetorial que captura o contexto e o significado de cada elemento no banco de dados. Uma entrada vetorial pode ser representada como um gráfico com nós e links entre eles.

A interface do usuário da enciclopédia online permanecerá a mesma, e a Wikipédia não se transformará em um chatbot, prometem seus criadores. No entanto, isso facilitará o acesso dos desenvolvedores de IA aos dados de origem, por exemplo, caso queiram construir seus próprios chatbots com base nesses dados. O objetivo do projeto é nivelar o campo de atuação para desenvolvedores de IA não afiliados a gigantes da tecnologia e sem suas capacidades, visto que a OpenAI e a Anthropic já possuem os recursos para vetorizar o Wikidata. Os membros da Fundação Wikimedia também esperam que o acesso mais fácil a esse banco de dados ajude a criar sistemas de IA que expressem informações de forma mais eficaz sobre tópicos altamente especializados e pouco representados online.

O banco de dados de vetores do Wikidata será útil para criar, por exemplo, derivados do chatbot ChatGPT, e os usuários não precisarão esperar que o OpenAI treine novamente o principal, sem garantia de que a contribuição de cada voluntário será levada em consideração. Na prática, as representações vetoriais de dados ajudam a IA a processar de forma mais eficaz não apenas as informações necessárias, mas também o contexto.O projeto está vinculado ao conjunto de dados. A vetorização é realizada utilizando o modelo Jina AI. A fonte de informações é o banco de dados estruturado Wikidata, de 18 de setembro de 2024. Os serviços gratuitos de armazenamento de dados para o projeto são fornecidos pela divisão DataStax da IBM. O banco de dados vetorial será atualizado, mas antes de adicionar informações do ano passado, os participantes do projeto esperam receber feedback dos desenvolvedores.

admin

Postagens recentes

A versão gratuita do Gemini recebeu um recurso premium chamado “Conversas Anteriores”.

O Google começou a disponibilizar globalmente o recurso "Conversas Anteriores" para usuários da versão gratuita…

6 horas atrás

O Metacritic removeu uma análise de Resident Evil Requiem do respeitado site de jogos, pois a nova administração substituiu os avaliadores por inteligência artificial.

O agregador de críticas Metacritic removeu uma crítica do respeitado site britânico Videogamer da página…

6 horas atrás

AMD lança driver com suporte para Resident Evil Requiem e Marathon.

A AMD lançou a versão mais recente do driver gráfico Radeon Software Adrenalin 26.2.2 WHQL.…

7 horas atrás

O novo driver da Nvidia danificou as ventoinhas das placas RTX 5000 — a atualização durou apenas algumas horas.

A Nvidia reverteu os drivers Game Ready e Studio595.59 WHQL, que haviam sido lançados há…

8 horas atrás

A Nvidia lançou um driver com suporte para Resident Evil Requiem.

A Nvidia lançou a versão mais recente do seu driver gráfico GeForce Game Ready 595.59…

8 horas atrás