Categorias: Mercado de tecnologia e TI. notíciaProgramas

Tencent lança modelo de IA de código aberto que cria mundos 3D inteiros a partir de uma única imagem

Esta semana, a empresa chinesa Tencent revelou um novo modelo de IA de código aberto, o HunyuanWorld-Voyager, que pode gerar vídeos em 3D a partir de uma única imagem, controlando a trajetória da câmera para “aprender” cenas virtuais. O algoritmo gera simultaneamente vídeo RGB e informações de profundidade (RGB-D), permitindo a reconstrução em 3D sem a necessidade de técnicas de modelagem tradicionais.

Crédito da imagem: Tencent

O resultado do HunyuanWorld-Voyager não é, na verdade, um modelo 3D real, mas cria um efeito semelhante. O algoritmo de IA gera quadros de vídeo 2D que mantêm a consistência espacial, como se a câmera estivesse se movendo em um espaço 3D real. Apenas 49 quadros são criados a cada geração, ou cerca de dois segundos de vídeo. De acordo com a Tencent, vários clipes podem ser combinados em sequências com duração de “vários minutos”. Os objetos mantêm sua posição enquanto a câmera se move ao redor deles, e a perspectiva muda corretamente, como se estivesse acontecendo em um ambiente 3D real. Embora o resultado seja um vídeo com mapas de profundidade e não um modelo 3D completo, esses dados podem ser convertidos em nuvens de pontos 3D para posterior reconstrução.

O sistema funciona com base em uma única imagem de origem e uma trajetória de câmera definida pelo usuário. A câmera pode ser configurada para se mover para frente, para trás, para a esquerda, para a direita ou para girar, para a qual é fornecida uma interface de controle. O sistema combina dados de imagem e profundidade com outros dados para criar uma sequência de vídeo que reflete o movimento da câmera especificado pelo usuário.

A principal limitação de todos os modelos de IA baseados na arquitetura Transformer é que eles imitam principalmente padrões encontrados nos dados de treinamento, o que limita sua capacidade de “generalizar”, ou seja, aplicar esses padrões a novas situações que não foram encontradas durante o treinamento. Para treinar o HunyuanWorld-Voyager, os pesquisadores utilizaram mais de 100.000 videoclipes, incluindo cenas geradas por computador na Unreal Engine. Em essência, eles treinaram o algoritmo de IA.simular o movimento de câmeras 3D em um ambiente de videogame.

A maioria dos geradores de IA, como o Sora, produz quadros com aparência realista um após o outro, sem tentar rastrear ou manter a consistência espacial. Em contraste, o HunyuanWorld-Voyager é treinado para reconhecer e reproduzir padrões espacialmente consistentes, mas com a adição de feedback geométrico. À medida que gera cada quadro, ele transforma a saída em um objeto de ponto 3D e, em seguida, projeta esses pontos de volta em 2D para uso em quadros futuros.

Essa abordagem força o modelo de IA a combinar padrões aprendidos anteriormente com projeções geometricamente consistentes aprendidas ao longo do caminho. Isso proporciona uma consistência espacial muito melhor do que outros geradores de vídeo de IA. No entanto, a abordagem ainda depende da correspondência de padrões com base em restrições geométricas, em vez de uma “compreensão” 3D completa. Isso explica por que o modelo de IA consegue manter a consistência por vários minutos, mas tem dificuldade para lidar com uma rotação de cena de 360°. Erros de correspondência de padrões se acumulam ao longo de muitos quadros até que as restrições geométricas não consigam mais manter a consistência.

De acordo com a Tencent, o HunyuanWorld-Voyager utiliza dois blocos de construção principais que funcionam em conjunto. Primeiro, o sistema gera vídeo colorido e informações de profundidade simultaneamente para garantir uma correspondência perfeita. Segundo, ele utiliza o que a Tencent chama de “cache global” — uma coleção crescente de modelos de pontos 3D criados a partir de quadros gerados anteriormente.No processo de geração de novos quadros, essa nuvem de pontos 3D é projetada de volta para 2D a partir do novo ângulo da câmera para criar imagens que mostram o que deveria ser visível com base nos quadros anteriores. O modelo então usa essas projeções para realizar a verificação de consistência, garantindo que os novos quadros correspondam aos já gerados.

O HunyuanWorld-Voyager baseia-se no modelo de IA anterior, HunyuanWorld 1.0, da Tencent, lançado em julho. O algoritmo também faz parte do ecossistema Hunyuan da Tencent, que também inclui o Hunyuan3D-2 para gerar objetos 3D a partir de descrições de texto e o HunyuanVideo para gerar vídeos.

O HunyuanWorld-Voyager requer um poder de computação significativo para ser executado. A Tencent recomenda pelo menos 60 GB de memória de vídeo para gerar cenas 3D com resolução de 540p, ou 80 GB de memória de vídeo para maior qualidade de imagem. O código-fonte do modelo de IA e a documentação que o acompanha podem ser acessados no portal Hugging Face. Assim como outros modelos de IA da família Hunyuan, o novo algoritmo possui restrições significativas de licenciamento. Por exemplo, a licença proíbe o uso do HunyuanWorld-Voyager na UE, Reino Unido e Coreia do Sul. O uso comercial que exija serviço para mais de 100 milhões de usuários por mês exige uma licença separada.

admin

Próximo Microsoft relata outra ruptura de cabo submarino no Mar Vermelho »

Anterior « AMD diz que ainda não consegue atender à demanda por suas placas gráficas

Deixar comentário

Publicado por

admin

5 meses atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O Pentágono ameaçou punir “severamente” a Anthropic por proibir o uso do Claude para vigilância e armas autônomas.

O secretário de Defesa dos EUA, Pete Hegseth, está "perto" de romper relações comerciais com…

32 minutos atrás

Notícias da rede

A Apple desafia o YouTube e o Spotify com uma grande reformulação de seu aplicativo Podcasts.

A Apple anunciou o lançamento de uma plataforma de podcasts em vídeo atualizada que integrará…

2 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

O Galaxy S26 estará protegido de “bárbaros curiosos” – um novo OLED ocultará seu conteúdo de olhares indiscretos.

A Samsung divulgou um vídeo promocional antes do lançamento de seus smartphones da série Galaxy…

3 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A Apple começou a testar a criptografia de ponta a ponta de mensagens RCS no iPhone.

A Apple lançou a versão beta do iOS 26.4 para desenvolvedores, que já permite testar…

3 horas atrás

Jogos

“Que Deus te abençoe, Larian”: Uma pequena atualização para Baldur’s Gate 3 trouxe muita alegria aos fãs.

O tão aguardado Baldur's Gate 3, do estúdio belga Larian Studios, recebeu seu patch final…

3 horas atrás

Mercado de TI

A Europa está a registar um aumento acentuado da procura de computadores portáteis usados devido à escassez de memória.

Com um conjunto de módulos de memória de capacidade média ficando mais caro do que…

8 horas atrás

Tencent lança modelo de IA de código aberto que cria mundos 3D inteiros a partir de uma única imagem

Conteúdo relacionado

Postagens recentes

O Pentágono ameaçou punir “severamente” a Anthropic por proibir o uso do Claude para vigilância e armas autônomas.

A Apple desafia o YouTube e o Spotify com uma grande reformulação de seu aplicativo Podcasts.

O Galaxy S26 estará protegido de “bárbaros curiosos” – um novo OLED ocultará seu conteúdo de olhares indiscretos.

A Apple começou a testar a criptografia de ponta a ponta de mensagens RCS no iPhone.

“Que Deus te abençoe, Larian”: Uma pequena atualização para Baldur’s Gate 3 trouxe muita alegria aos fãs.

A Europa está a registar um aumento acentuado da procura de computadores portáteis usados ​​devido à escassez de memória.

A Europa está a registar um aumento acentuado da procura de computadores portáteis usados devido à escassez de memória.