Intel Labs introduziu uma rede neural para gerar imagens panorâmicas com uma visão de 360 ​​graus

A Intel Labs, em colaboração com a Blockade Labs, revelou um Modelo de IA de Difusão Latente 3D de 360 ​​graus (LDM3D), que é o primeiro na indústria a fornecer mapeamento de profundidade de cena. O LDM3D tem o potencial de revolucionar a criação de conteúdo visual 3D realista, aplicativos metaversos e experiências digitais, além de encontrar aplicativos em uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.

Fonte da imagem: Intel Labs

O LDM3D foi treinado em um conjunto de dados criado a partir de um subconjunto de 10.000 amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de imagens e legendas. O modelo Dense Prediction Transformer (DPT) desenvolvido pela Intel Labs foi usado para exibir a profundidade relativa exata de cada pixel. O conjunto de dados LAION-400M foi projetado para fornecer uma ampla gama de oportunidades de teste de modelo para uma ampla gama de pesquisadores e outras comunidades interessadas.

O modelo LDM3D foi treinado em um supercomputador Intel AI baseado em processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam a imagem gerada e o mapa de profundidade para criar visualizações panorâmicas de 360 ​​graus.

Para demonstrar o potencial do LDM3D, os pesquisadores desenvolveram o aplicativo DepthFusion, que usa fotos 2D RGB padrão e mapas de profundidade para criar um panorama interativo de 360 ​​graus. Para transformar prompts de texto em panoramas 3D, o TouchDesigner é uma linguagem de programação visual baseada em nó para conteúdo multimídia interativo em tempo real. O LDM3D combina uma imagem RGB e seu mapa de profundidade, resultando em economia de memória e desempenho mais rápido.

Exemplos de imagens panorâmicas de 360 ​​graus

«A tecnologia de IA generativa visa expandir a criatividade humana e economizar tempo. No entanto, a maioria dos modelos atuais de IA limita-se a gerar imagens 2D. Em contraste, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Isso fornece uma profundidade relativa mais precisa para cada pixel em comparação com os métodos de pós-processamento padrão e economiza um tempo significativo dos desenvolvedores ao desenvolver cenas”, explicou Vasudev Lal, pesquisador do Intel Labs.

Esta pesquisa tem o potencial de revolucionar a interação com o conteúdo digital, permitindo que os usuários exibam prompts de texto de maneiras antes impensáveis. Imagens e mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem uma descrição textual de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado. A capacidade de criar um mapa de profundidade de uma imagem pode aumentar instantaneamente o realismo geral e a imersão, permitindo a criação de aplicativos inovadores para setores que variam de entretenimento e jogos a design de interiores e catálogos imobiliários, bem como museus virtuais e realidade virtual imersiva.

A introdução do LDM3D e do DepthFusion abre caminho para novos desenvolvimentos em IA generativa e visão computacional. A Intel continuará pesquisando IA generativa para capacitar os seres humanos e construir um ecossistema de IA de código aberto que democratize o acesso a essa tecnologia. O LDM3D é fornecido em código aberto por meio da comunidade HuggingFace.

avalanche

Postagens recentes

Reddit irá reprimir os criadores de conteúdo de treinamento de IA

A administração da plataforma Reddit anunciou que atualizará as exceções para robôs (arquivo robots.txt), que…

1 semana atrás

O desenvolvedor do Robotaxi, Cruise, é chefiado por um ex-executivo do Xbox

Marc Whitten, um engenheiro e veterano da indústria de jogos que esteve na vanguarda do…

1 semana atrás

Em resposta a inúmeras reclamações, o primeiro patch para Elden Ring: Shadow of the Erdtree tornou os jogadores mais fortes

A editora Bandai Namco e os desenvolvedores do estúdio FromSoftware anunciaram o lançamento do primeiro…

1 semana atrás