Intel Labs introduziu uma rede neural para gerar imagens panorâmicas com uma visão de 360 ​​graus

A Intel Labs, em colaboração com a Blockade Labs, revelou um Modelo de IA de Difusão Latente 3D de 360 ​​graus (LDM3D), que é o primeiro na indústria a fornecer mapeamento de profundidade de cena. O LDM3D tem o potencial de revolucionar a criação de conteúdo visual 3D realista, aplicativos metaversos e experiências digitais, além de encontrar aplicativos em uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.

Fonte da imagem: Intel Labs

O LDM3D foi treinado em um conjunto de dados criado a partir de um subconjunto de 10.000 amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de imagens e legendas. O modelo Dense Prediction Transformer (DPT) desenvolvido pela Intel Labs foi usado para exibir a profundidade relativa exata de cada pixel. O conjunto de dados LAION-400M foi projetado para fornecer uma ampla gama de oportunidades de teste de modelo para uma ampla gama de pesquisadores e outras comunidades interessadas.

O modelo LDM3D foi treinado em um supercomputador Intel AI baseado em processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam a imagem gerada e o mapa de profundidade para criar visualizações panorâmicas de 360 ​​graus.

Para demonstrar o potencial do LDM3D, os pesquisadores desenvolveram o aplicativo DepthFusion, que usa fotos 2D RGB padrão e mapas de profundidade para criar um panorama interativo de 360 ​​graus. Para transformar prompts de texto em panoramas 3D, o TouchDesigner é uma linguagem de programação visual baseada em nó para conteúdo multimídia interativo em tempo real. O LDM3D combina uma imagem RGB e seu mapa de profundidade, resultando em economia de memória e desempenho mais rápido.

Exemplos de imagens panorâmicas de 360 ​​graus

«A tecnologia de IA generativa visa expandir a criatividade humana e economizar tempo. No entanto, a maioria dos modelos atuais de IA limita-se a gerar imagens 2D. Em contraste, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Isso fornece uma profundidade relativa mais precisa para cada pixel em comparação com os métodos de pós-processamento padrão e economiza um tempo significativo dos desenvolvedores ao desenvolver cenas”, explicou Vasudev Lal, pesquisador do Intel Labs.

Esta pesquisa tem o potencial de revolucionar a interação com o conteúdo digital, permitindo que os usuários exibam prompts de texto de maneiras antes impensáveis. Imagens e mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem uma descrição textual de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado. A capacidade de criar um mapa de profundidade de uma imagem pode aumentar instantaneamente o realismo geral e a imersão, permitindo a criação de aplicativos inovadores para setores que variam de entretenimento e jogos a design de interiores e catálogos imobiliários, bem como museus virtuais e realidade virtual imersiva.

A introdução do LDM3D e do DepthFusion abre caminho para novos desenvolvimentos em IA generativa e visão computacional. A Intel continuará pesquisando IA generativa para capacitar os seres humanos e construir um ecossistema de IA de código aberto que democratize o acesso a essa tecnologia. O LDM3D é fornecido em código aberto por meio da comunidade HuggingFace.

avalanche

Postagens recentes

“Todos estão infelizes, exceto a gerência”: o moral na Meta atinge o nível mais baixo da história, apesar dos lucros recordes.

O moral na Meta✴ atingiu um nível historicamente baixo às vésperas da demissão de quase…

1 hora atrás

Seguindo o caminho já trilhado: a crítica deu seu veredito sobre Forza Horizon 6.

Antes de seu lançamento iminente, o ambicioso jogo de corrida arcade de mundo aberto Forza…

2 horas atrás

As placas gráficas Radeon RX 6000 e RX 7000 receberão suporte para o escalonamento AMD FSR 4.1.

A AMD atendeu aos pedidos insistentes dos jogadores para fornecer suporte à tecnologia de escalonamento…

2 horas atrás

Amazon cancela MMO de Senhor dos Anéis, mas já tem um novo jogo “emocionante”.

A pedido do Eurogamer, Jeff Grattis, chefe da divisão de jogos da Amazon, comentou sobre…

2 horas atrás

A MSI lançará uma GeForce RTX 5080 em edição muito limitada, inspirada em “The Mandalorian e Grogu”.

A MSI apresentou a placa de vídeo GeForce RTX 5080 16GB OC em uma edição…

3 horas atrás

A Anthropic afirmou que a IA já escreve mais de 90% do seu código.

É como se as empresas de tecnologia estivessem numa corrida para ver quem consegue fazer…

3 horas atrás