Meta treinou a rede neural data2vec para trabalhar com fala, imagens e texto para que pudesse “entender o mundo”

Os meta pesquisadores treinaram um modelo de inteligência artificial (IA) para processar fala, imagens e texto no que eles esperam que seja a base para futuros desenvolvimentos em realidade aumentada e metaverso.

Fonte da imagem: Gerd Altmann / pixabay.com

O modelo, chamado data2vec, realiza tarefas de vários tipos: reconhece a fala quando você digita a voz; ao inserir dados no formato de uma imagem, identifica objetos nela; e tendo recebido o texto na entrada, verifica se há erros gramaticais e analisa entonações com fundo emocional. Tradicionalmente, os algoritmos de IA são treinados em um tipo de dado, mas no caso do data2vec, optou-se por trabalhar com três formatos. Mas com cada um deles, a rede neural funciona independentemente das outras.

A empresa espera que, no futuro, esses modelos multimodais tornem os computadores mais adaptáveis ​​- capazes de combinar ambientes físicos e digitais em uma única dimensão conceitual. “As pessoas percebem o mundo através de uma combinação de visão, audição e palavras – sistemas como esse um dia entenderão o mundo da mesma maneira que nós. Algum dia ele será incorporado a óculos de realidade aumentada ou a um assistente de IA para, por exemplo, ajudar uma pessoa a preparar o jantar, anotando ingredientes ausentes, recomendando diminuir o fogo ou [realizando] tarefas mais complexas ”, Mark Zuckerberg, chefe da Meta , comentou o projeto ao The Register.(Mark Zuckerberg).

A plataforma de hardware do sistema data2vec foi construída utilizando 16 aceleradores NVIDIA V100 e A100. 960 horas de gravações de áudio de voz, vários milhões de palavras de livros e páginas da Wikipedia, bem como imagens do banco de dados ImageNet-1K foram usados ​​como dados iniciais para o treinamento de IA. Quando testado em tarefas específicas, o data2vec provou ser mais eficiente do que alguns dos principais modelos de IA treinados em apenas um tipo de dados. No futuro, disse um dos desenvolvedores do projeto, está previsto expandir a percepção da rede neural com outros tipos de dados, como cheiros, objetos 3D e vídeos.

avalanche

Postagens recentes

O smartphone gamer Infinix GT 50 Pro, com sistema de resfriamento avançado, está prestes a ser lançado.

A fabricante de eletrônicos Infinix anunciou o lançamento do smartphone gamer GT 50 Pro, equipado…

52 minutos atrás

A startup de um cientista da NASA anunciou o desenvolvimento de uma fonte de energia inesgotável que utiliza energia do vácuo.

A startup recém-apresentada, Casimir, anunciou um desenvolvimento notável: uma fonte de energia inesgotável alimentada por…

52 minutos atrás

O AMD EPYC conquista uma fatia recorde de 46,2% do mercado de processadores para servidores, tudo graças a agentes de IA.

Os processadores para servidores da AMD demonstraram um sucesso significativo: ao final do primeiro trimestre…

52 minutos atrás

Bem-vindos ao Volnapocalipse: a IA está encontrando vulnerabilidades mais rápido do que conseguimos corrigi-las.

A Palo Alto Networks, empresa de cibersegurança sediada na Califórnia, normalmente corrige cinco vulnerabilidades por…

1 hora atrás

Claude Antrópico ajudou a recuperar o equivalente a US$ 400.000 em Bitcoin, mas ele não invadiu a blockchain.

O usuário de mídia social X, apelidado de Cprkrn, compartilhou como o assistente de inteligência…

1 hora atrás