Categorias: Mercado de tecnologia e TI. notíciaNotícias da rede

O banco de dados da Wikimedia Foundation será convertido para o formato vetorial, facilitando a pesquisa para humanos e IA.

Um dos projetos mais importantes da Fundação Wikimedia é o Wikidata, um banco de dados central que armazena as informações mais importantes: textos, imagens, palavras-chave e outros dados. Esses dados são apresentados tanto como páginas da web quanto no formato JSON legível por máquina. Agora, esse banco de dados será expandido para um formato vetorial compatível com inteligência artificial.

Fonte da imagem: Luke Chesser / unsplash.com

Uma representação vetorial do Wikidata simplificará o processamento de informações de bancos de dados por grandes modelos de linguagem. Participantes do Projeto de Incorporação da Wikipédia, na filial alemã da Fundação Wikimedia, estão trabalhando nessa tarefa. No ano passado, a equipe de Berlim utilizou um grande modelo de linguagem para transformar 19 milhões de entradas estruturadas do Wikidata em um formato vetorial que captura o contexto e o significado de cada elemento no banco de dados. Uma entrada vetorial pode ser representada como um gráfico com nós e links entre eles.

A interface do usuário da enciclopédia online permanecerá a mesma, e a Wikipédia não se transformará em um chatbot, prometem seus criadores. No entanto, isso facilitará o acesso dos desenvolvedores de IA aos dados de origem, por exemplo, caso queiram construir seus próprios chatbots com base nesses dados. O objetivo do projeto é nivelar o campo de atuação para desenvolvedores de IA não afiliados a gigantes da tecnologia e sem suas capacidades, visto que a OpenAI e a Anthropic já possuem os recursos para vetorizar o Wikidata. Os membros da Fundação Wikimedia também esperam que o acesso mais fácil a esse banco de dados ajude a criar sistemas de IA que expressem informações de forma mais eficaz sobre tópicos altamente especializados e pouco representados online.

O banco de dados de vetores do Wikidata será útil para criar, por exemplo, derivados do chatbot ChatGPT, e os usuários não precisarão esperar que o OpenAI treine novamente o principal, sem garantia de que a contribuição de cada voluntário será levada em consideração. Na prática, as representações vetoriais de dados ajudam a IA a processar de forma mais eficaz não apenas as informações necessárias, mas também o contexto.O projeto está vinculado ao conjunto de dados. A vetorização é realizada utilizando o modelo Jina AI. A fonte de informações é o banco de dados estruturado Wikidata, de 18 de setembro de 2024. Os serviços gratuitos de armazenamento de dados para o projeto são fornecidos pela divisão DataStax da IBM. O banco de dados vetorial será atualizado, mas antes de adicionar informações do ano passado, os participantes do projeto esperam receber feedback dos desenvolvedores.

admin

Próximo O acessível smartphone Realme 15x é revelado – ele possui uma tela de 144 Hz, proteção IP69 e uma bateria de 7000 mAh por US$ 200. »

Anterior « O boom da IA elevou o preço dos computadores de placa única Raspberry Pi.

Deixar comentário

Publicado por

admin

9 meses atrás

Postagens recentes

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

SK hynix conseguiu ganhar US$ 26,5 bilhões após sua colocação nos EUA

\nA tão discutida colocação de recibos de depósito da SK Hynix nos Estados Unidos ocorreu…

1 hora atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

OpenAI deixará de oferecer suporte ao navegador ChatGPT Atlas AI em agosto em favor de um novo aplicativo de desktop ChatGPT para Windows e Mac

\nA OpenAI anunciou que descontinuará o suporte para o navegador ChatGPT Atlas AI no próximo…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Character.AI introduziu o formato de séries curtas com a capacidade de conversar com personagens

\nA plataforma Character.AI anunciou o lançamento de um novo formato de microsséries curtas para dispositivos…

2 horas atrás

Periféricos de áudio / vídeo, fones de ouvido, webcams

A Razer lançou um headset temático para os fãs do personagem Cinnamorola

\nA Razer anunciou o lançamento do headset Kraken Kitty V2 BT Cinnamoroll Edition, que se…

2 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A Micron concordou em investir US$ 500 milhões na empresa americana GlobalWafers para a produção de wafers de silício

\nNa esteira do boom da IA, a empresa americana Micron Technology decidiu expandir sua capacidade…

3 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A Micron concordou em investir US$ 500 milhões na empresa americana GlobalWafers para a produção de wafers de silício

\nNa esteira do boom da IA, a empresa americana Micron Technology decidiu expandir sua capacidade…

3 horas atrás

O banco de dados da Wikimedia Foundation será convertido para o formato vetorial, facilitando a pesquisa para humanos e IA.

Conteúdo relacionado

Postagens recentes

SK hynix conseguiu ganhar US$ 26,5 bilhões após sua colocação nos EUA

OpenAI deixará de oferecer suporte ao navegador ChatGPT Atlas AI em agosto em favor de um novo aplicativo de desktop ChatGPT para Windows e Mac

Character.AI introduziu o formato de séries curtas com a capacidade de conversar com personagens

A Razer lançou um headset temático para os fãs do personagem Cinnamorola

A Micron concordou em investir US$ 500 milhões na empresa americana GlobalWafers para a produção de wafers de silício

A Micron concordou em investir US$ 500 milhões na empresa americana GlobalWafers para a produção de wafers de silício