Meta apresenta ImageBind, um modelo aberto de IA capaz de processar seis tipos de dados

A Meta* anunciou o desenvolvimento de um modelo de inteligência artificial de código aberto capaz de processar seis fluxos de dados: texto, som, imagem estática e dinâmica (vídeo), temperatura, informações de profundidade de cena e informações de movimento.

Fonte da imagem: Meta*

O modelo ImageBind AI é atualmente um projeto de pesquisa sem aplicações práticas ainda, mas este projeto aponta para a promessa de sistemas generativos. Também é importante notar que a Meta* continua teimosamente compartilhando seus desenvolvimentos com o público, enquanto seus concorrentes na escala de OpenAI e Google estão se tornando cada vez mais fechados.

O conceito-chave do estudo é combinar dados de vários tipos em um índice multidimensional. Este é um tipo de desenvolvimento da ideia de IA generativa, que está disponível para o consumidor hoje. Por exemplo, geradores de imagens como DALL-E, Stable Diffusion e Midjourney são treinados na correspondência de texto e imagem, ou seja, dois tipos de dados: uma rede neural procura padrões em dados visuais associados a descrições de imagens. Em última análise, isso permite que os sistemas gerem imagens a partir de descrições arbitrárias. Os geradores de áudio e vídeo funcionam de maneira semelhante.

O projeto ImageBind é uma tentativa de colocar seis tipos de dados em um único espaço ao mesmo tempo: visual, incluindo imagens estáticas e vídeo; térmica, ou seja, informações de sensores infravermelhos; texto; som; dados de profundidade; dados de movimento de uma unidade de medição inercial (IMU) – como os usados ​​em smartphones e relógios inteligentes. Os desenvolvedores da plataforma estão tentando treiná-lo para trabalhar com esses dados da mesma forma que com texto ou imagens. Assim treinado, um futuro sistema de realidade virtual será capaz de gerar ambientes holísticos: por exemplo, se solicitado a simular uma viagem marítima, colocará o usuário em um navio com o som das ondas ao fundo, complementando-o com um deck balançando e brisa do mar.

Daqui para frente, os engenheiros da Meta* prevêem expandir ainda mais os fluxos de dados sensoriais para incluir “toque, fala, olfato e sinais funcionais de ressonância magnética do cérebro”. As máquinas, por sua vez, poderão se autoaprender em tempo real sobre as informações em diversas formas.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

A Microsoft atualizou o recurso Recall, aumentando sua segurança

A Microsoft anunciou no blog do Windows que fez uma série de alterações no funcionamento…

13 minutos atrás

Encontre-me no tribunal: o Steam mudou sua política de resolução de disputas de usuários

A Valve atualizou o Contrato de Assinatura do Steam (SSA) para não exigir mais que…

38 minutos atrás

Um show aéreo de 7.598 drones entrou no Livro de Recordes do Guinness

As capacidades do comportamento do enxame de drones são melhor demonstradas em shows aéreos de…

2 horas atrás

Fundador da Binance é libertado após quatro meses de prisão

O fundador da bolsa de criptomoedas Binance, Changpeng Zhao, foi recentemente libertado da custódia nos…

3 horas atrás