Intel Labs introduziu uma rede neural para gerar imagens panorâmicas com uma visão de 360 ​​graus

A Intel Labs, em colaboração com a Blockade Labs, revelou um Modelo de IA de Difusão Latente 3D de 360 ​​graus (LDM3D), que é o primeiro na indústria a fornecer mapeamento de profundidade de cena. O LDM3D tem o potencial de revolucionar a criação de conteúdo visual 3D realista, aplicativos metaversos e experiências digitais, além de encontrar aplicativos em uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.

Fonte da imagem: Intel Labs

O LDM3D foi treinado em um conjunto de dados criado a partir de um subconjunto de 10.000 amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de imagens e legendas. O modelo Dense Prediction Transformer (DPT) desenvolvido pela Intel Labs foi usado para exibir a profundidade relativa exata de cada pixel. O conjunto de dados LAION-400M foi projetado para fornecer uma ampla gama de oportunidades de teste de modelo para uma ampla gama de pesquisadores e outras comunidades interessadas.

O modelo LDM3D foi treinado em um supercomputador Intel AI baseado em processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam a imagem gerada e o mapa de profundidade para criar visualizações panorâmicas de 360 ​​graus.

Para demonstrar o potencial do LDM3D, os pesquisadores desenvolveram o aplicativo DepthFusion, que usa fotos 2D RGB padrão e mapas de profundidade para criar um panorama interativo de 360 ​​graus. Para transformar prompts de texto em panoramas 3D, o TouchDesigner é uma linguagem de programação visual baseada em nó para conteúdo multimídia interativo em tempo real. O LDM3D combina uma imagem RGB e seu mapa de profundidade, resultando em economia de memória e desempenho mais rápido.

Exemplos de imagens panorâmicas de 360 ​​graus

«A tecnologia de IA generativa visa expandir a criatividade humana e economizar tempo. No entanto, a maioria dos modelos atuais de IA limita-se a gerar imagens 2D. Em contraste, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Isso fornece uma profundidade relativa mais precisa para cada pixel em comparação com os métodos de pós-processamento padrão e economiza um tempo significativo dos desenvolvedores ao desenvolver cenas”, explicou Vasudev Lal, pesquisador do Intel Labs.

Esta pesquisa tem o potencial de revolucionar a interação com o conteúdo digital, permitindo que os usuários exibam prompts de texto de maneiras antes impensáveis. Imagens e mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem uma descrição textual de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado. A capacidade de criar um mapa de profundidade de uma imagem pode aumentar instantaneamente o realismo geral e a imersão, permitindo a criação de aplicativos inovadores para setores que variam de entretenimento e jogos a design de interiores e catálogos imobiliários, bem como museus virtuais e realidade virtual imersiva.

A introdução do LDM3D e do DepthFusion abre caminho para novos desenvolvimentos em IA generativa e visão computacional. A Intel continuará pesquisando IA generativa para capacitar os seres humanos e construir um ecossistema de IA de código aberto que democratize o acesso a essa tecnologia. O LDM3D é fornecido em código aberto por meio da comunidade HuggingFace.

avalanche

Postagens recentes

Os EUA irão acelerar a eliminação gradual das redes de telecomunicações de cobre.

A Comissão Federal de Comunicações (FCC) dos EUA adotou novas regulamentações que aceleram o descomissionamento…

1 hora atrás

A Xiaomi entregou 5.000 veículos elétricos Xiaomi SU7 atualizados na primeira semana.

Para manter sua posição no competitivo mercado chinês de veículos elétricos, a Xiaomi atualizou a…

2 horas atrás

Pesquisadores desenvolveram o “Wi-Fi profundo” – transmissão de dados sem fio no subsolo a uma profundidade de até 100 metros.

Pesquisadores sul-coreanos do Instituto de Pesquisa em Eletrônica e Telecomunicações (ETRI) desenvolveram uma nova tecnologia…

2 horas atrás

A Dolby processa o Snapchat por usar seu codec AV1 gratuito.

A Dolby Laboratories (Dolby Labs), empresa americana especializada em tecnologias de processamento e codificação de…

3 horas atrás

Nove anos após o seu lançamento, os desenvolvedores de Hollow Knight tornaram o chefe final do jogo um pouco mais fácil.

Lançado em 2017, o jogo de estratégia hardcore estilo Metroidvania, Hollow Knight, desenvolvido pelo estúdio…

3 horas atrás