A Intel Labs, em colaboração com a Blockade Labs, revelou um Modelo de IA de Difusão Latente 3D de 360 graus (LDM3D), que é o primeiro na indústria a fornecer mapeamento de profundidade de cena. O LDM3D tem o potencial de revolucionar a criação de conteúdo visual 3D realista, aplicativos metaversos e experiências digitais, além de encontrar aplicativos em uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.
Fonte da imagem: Intel Labs
O LDM3D foi treinado em um conjunto de dados criado a partir de um subconjunto de 10.000 amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de imagens e legendas. O modelo Dense Prediction Transformer (DPT) desenvolvido pela Intel Labs foi usado para exibir a profundidade relativa exata de cada pixel. O conjunto de dados LAION-400M foi projetado para fornecer uma ampla gama de oportunidades de teste de modelo para uma ampla gama de pesquisadores e outras comunidades interessadas.
O modelo LDM3D foi treinado em um supercomputador Intel AI baseado em processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam a imagem gerada e o mapa de profundidade para criar visualizações panorâmicas de 360 graus.
Para demonstrar o potencial do LDM3D, os pesquisadores desenvolveram o aplicativo DepthFusion, que usa fotos 2D RGB padrão e mapas de profundidade para criar um panorama interativo de 360 graus. Para transformar prompts de texto em panoramas 3D, o TouchDesigner é uma linguagem de programação visual baseada em nó para conteúdo multimídia interativo em tempo real. O LDM3D combina uma imagem RGB e seu mapa de profundidade, resultando em economia de memória e desempenho mais rápido.
Exemplos de imagens panorâmicas de 360 graus
«A tecnologia de IA generativa visa expandir a criatividade humana e economizar tempo. No entanto, a maioria dos modelos atuais de IA limita-se a gerar imagens 2D. Em contraste, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Isso fornece uma profundidade relativa mais precisa para cada pixel em comparação com os métodos de pós-processamento padrão e economiza um tempo significativo dos desenvolvedores ao desenvolver cenas”, explicou Vasudev Lal, pesquisador do Intel Labs.
Esta pesquisa tem o potencial de revolucionar a interação com o conteúdo digital, permitindo que os usuários exibam prompts de texto de maneiras antes impensáveis. Imagens e mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem uma descrição textual de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado. A capacidade de criar um mapa de profundidade de uma imagem pode aumentar instantaneamente o realismo geral e a imersão, permitindo a criação de aplicativos inovadores para setores que variam de entretenimento e jogos a design de interiores e catálogos imobiliários, bem como museus virtuais e realidade virtual imersiva.
A introdução do LDM3D e do DepthFusion abre caminho para novos desenvolvimentos em IA generativa e visão computacional. A Intel continuará pesquisando IA generativa para capacitar os seres humanos e construir um ecossistema de IA de código aberto que democratize o acesso a essa tecnologia. O LDM3D é fornecido em código aberto por meio da comunidade HuggingFace.
A Comissão Europeia lançou a iniciativa "Rumo a Ecossistemas Digitais Abertos Europeus", que visa identificar…
O aumento dos preços dos chips de memória DDR5 está impactando negativamente o mercado de…
Analistas da KeyBanc não preveem sinais de alívio na escassez de chips de memória este…
Os desenvolvedores do estúdio canadense Hypixel esperavam que cerca de um milhão de jogadores lançassem…
Os engenheiros chineses continuam a surpreender com seus projetos ambiciosos. Um desses projetos foi a…
A startup chinesa Knowledge Atlas Technology JSC Ltd. (também conhecida como Zhipu) lançou um modelo…