Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Meta apresenta ImageBind, um modelo aberto de IA capaz de processar seis tipos de dados

A Meta* anunciou o desenvolvimento de um modelo de inteligência artificial de código aberto capaz de processar seis fluxos de dados: texto, som, imagem estática e dinâmica (vídeo), temperatura, informações de profundidade de cena e informações de movimento.

Fonte da imagem: Meta*

O modelo ImageBind AI é atualmente um projeto de pesquisa sem aplicações práticas ainda, mas este projeto aponta para a promessa de sistemas generativos. Também é importante notar que a Meta* continua teimosamente compartilhando seus desenvolvimentos com o público, enquanto seus concorrentes na escala de OpenAI e Google estão se tornando cada vez mais fechados.

O conceito-chave do estudo é combinar dados de vários tipos em um índice multidimensional. Este é um tipo de desenvolvimento da ideia de IA generativa, que está disponível para o consumidor hoje. Por exemplo, geradores de imagens como DALL-E, Stable Diffusion e Midjourney são treinados na correspondência de texto e imagem, ou seja, dois tipos de dados: uma rede neural procura padrões em dados visuais associados a descrições de imagens. Em última análise, isso permite que os sistemas gerem imagens a partir de descrições arbitrárias. Os geradores de áudio e vídeo funcionam de maneira semelhante.

O projeto ImageBind é uma tentativa de colocar seis tipos de dados em um único espaço ao mesmo tempo: visual, incluindo imagens estáticas e vídeo; térmica, ou seja, informações de sensores infravermelhos; texto; som; dados de profundidade; dados de movimento de uma unidade de medição inercial (IMU) – como os usados em smartphones e relógios inteligentes. Os desenvolvedores da plataforma estão tentando treiná-lo para trabalhar com esses dados da mesma forma que com texto ou imagens. Assim treinado, um futuro sistema de realidade virtual será capaz de gerar ambientes holísticos: por exemplo, se solicitado a simular uma viagem marítima, colocará o usuário em um navio com o som das ondas ao fundo, complementando-o com um deck balançando e brisa do mar.

Daqui para frente, os engenheiros da Meta* prevêem expandir ainda mais os fluxos de dados sensoriais para incluir “toque, fala, olfato e sinais funcionais de ressonância magnética do cérebro”. As máquinas, por sua vez, poderão se autoaprender em tempo real sobre as informações em diversas formas.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Próximo Dell apresenta monitor curvo UltraSharp 38 de 37,5" com painel preto IPS e vários USB »

Anterior « AMD lembrou que a Radeon RX 6800 é mais rápida que a GeForce RTX 3070

Deixar comentário

Publicado por

avalanche

3 anos atrás

Postagens recentes

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A SK Hynix planeja abrir seu capital na bolsa de valores dos EUA ainda este ano.

Embora alguns especialistas apontem para condições desfavoráveis para ofertas públicas iniciais (IPOs), empresas com necessidades…

39 minutos atrás

Espaço

A SpaceX está se preparando para protocolar os documentos necessários para uma oferta pública inicial (IPO) esta semana.

No final de janeiro, foi anunciado que a SpaceX, empresa aeroespacial de Elon Musk, programaria…

3 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Apple lançará um aplicativo Siri separado para iOS 27 e macOS 27.

Segundo Mark Gurman, da Bloomberg, a Apple planeja lançar o primeiro aplicativo Siri independente como…

6 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A OpenAI encerrou abruptamente o Sora, o gerador viral de sátiras com IA.

A OpenAI decidiu inesperadamente encerrar seu aplicativo de criação de vídeos com inteligência artificial, o…

6 horas atrás

Eventos e eventos da indústria de TI, exposições, fóruns

NVIDIA Groq 3: SRAM, desagregação, determinismo

As LPUs da Groq são fundamentalmente diferentes dos aceleradores de IA da NVIDIA, mas são…

8 horas atrás

Manipuladores, dispositivos gráficos de entrada

A Razer apresentou o mouse sem fio Viper V4 Pro — 49 gramas, 50.000 DPI, switches ópticos e 180 horas de duração da bateria por US$ 160.

A Razer apresentou o mouse gamer sem fio Viper V4 Pro. O novo mouse conta…

9 horas atrás