Categorias: Mercado de tecnologia e TI. notíciaNotícias da rede

O banco de dados da Wikimedia Foundation será convertido para o formato vetorial, facilitando a pesquisa para humanos e IA.

Um dos projetos mais importantes da Fundação Wikimedia é o Wikidata, um banco de dados central que armazena as informações mais importantes: textos, imagens, palavras-chave e outros dados. Esses dados são apresentados tanto como páginas da web quanto no formato JSON legível por máquina. Agora, esse banco de dados será expandido para um formato vetorial compatível com inteligência artificial.

Fonte da imagem: Luke Chesser / unsplash.com

Uma representação vetorial do Wikidata simplificará o processamento de informações de bancos de dados por grandes modelos de linguagem. Participantes do Projeto de Incorporação da Wikipédia, na filial alemã da Fundação Wikimedia, estão trabalhando nessa tarefa. No ano passado, a equipe de Berlim utilizou um grande modelo de linguagem para transformar 19 milhões de entradas estruturadas do Wikidata em um formato vetorial que captura o contexto e o significado de cada elemento no banco de dados. Uma entrada vetorial pode ser representada como um gráfico com nós e links entre eles.

A interface do usuário da enciclopédia online permanecerá a mesma, e a Wikipédia não se transformará em um chatbot, prometem seus criadores. No entanto, isso facilitará o acesso dos desenvolvedores de IA aos dados de origem, por exemplo, caso queiram construir seus próprios chatbots com base nesses dados. O objetivo do projeto é nivelar o campo de atuação para desenvolvedores de IA não afiliados a gigantes da tecnologia e sem suas capacidades, visto que a OpenAI e a Anthropic já possuem os recursos para vetorizar o Wikidata. Os membros da Fundação Wikimedia também esperam que o acesso mais fácil a esse banco de dados ajude a criar sistemas de IA que expressem informações de forma mais eficaz sobre tópicos altamente especializados e pouco representados online.

O banco de dados de vetores do Wikidata será útil para criar, por exemplo, derivados do chatbot ChatGPT, e os usuários não precisarão esperar que o OpenAI treine novamente o principal, sem garantia de que a contribuição de cada voluntário será levada em consideração. Na prática, as representações vetoriais de dados ajudam a IA a processar de forma mais eficaz não apenas as informações necessárias, mas também o contexto.O projeto está vinculado ao conjunto de dados. A vetorização é realizada utilizando o modelo Jina AI. A fonte de informações é o banco de dados estruturado Wikidata, de 18 de setembro de 2024. Os serviços gratuitos de armazenamento de dados para o projeto são fornecidos pela divisão DataStax da IBM. O banco de dados vetorial será atualizado, mas antes de adicionar informações do ano passado, os participantes do projeto esperam receber feedback dos desenvolvedores.

admin

Próximo O acessível smartphone Realme 15x é revelado – ele possui uma tela de 144 Hz, proteção IP69 e uma bateria de 7000 mAh por US$ 200. »

Anterior « O boom da IA elevou o preço dos computadores de placa única Raspberry Pi.

Deixar comentário

Publicado por

admin

6 meses atrás

Postagens recentes

Os computadores empresariais MSI Cubi NUC TWG, com refrigeração ativa e passiva, estão alojados em um gabinete de 0,55 litros.

A MSI apresentou os computadores de formato compacto Cubi NUC TWG, projetados para uso empresarial…

1 hora atrás

Desenvolvimento e fabricação de eletrônicos

O mercado de smartphones cresceu 1% no primeiro trimestre, mas espera-se uma queda de 15% até o final do ano.

De acordo com a Omdia, empresa líder em pesquisa de mercado, o mercado global de…

2 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

Aproveitando o boom da IA, o lucro operacional da SK Hynix deverá quintuplicar este ano, superando o da Microsoft e do Google.

O progresso da concorrente Samsung Electronics no domínio da produção de HBM4 não deve impedir…

11 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

Aproveitando o boom da IA, o lucro operacional da SK Hynix deverá quintuplicar este ano, superando o da Microsoft e do Google.

O progresso da concorrente Samsung Electronics no domínio da produção de HBM4 não deve impedir…

11 horas atrás

Notícias da rede

A Rockstar confirmou um vazamento de dados através da plataforma de análise de IA de terceiros, Anodot.

A Rockstar Games confirmou que dados corporativos foram comprometidos em decorrência de um ataque hacker…

11 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O fundador da DeepSeek anunciou a data de lançamento do modelo principal V4.

O fundador da DeepSeek, Liang Wenfeng, confirmou durante uma reunião interna com funcionários que o…

11 horas atrás

O banco de dados da Wikimedia Foundation será convertido para o formato vetorial, facilitando a pesquisa para humanos e IA.

Conteúdo relacionado

Postagens recentes

Os computadores empresariais MSI Cubi NUC TWG, com refrigeração ativa e passiva, estão alojados em um gabinete de 0,55 litros.

O mercado de smartphones cresceu 1% no primeiro trimestre, mas espera-se uma queda de 15% até o final do ano.

Aproveitando o boom da IA, o lucro operacional da SK Hynix deverá quintuplicar este ano, superando o da Microsoft e do Google.

Aproveitando o boom da IA, o lucro operacional da SK Hynix deverá quintuplicar este ano, superando o da Microsoft e do Google.

A Rockstar confirmou um vazamento de dados através da plataforma de análise de IA de terceiros, Anodot.

O fundador da DeepSeek anunciou a data de lançamento do modelo principal V4.