Esta semana, a empresa chinesa Tencent revelou um novo modelo de IA de código aberto, o HunyuanWorld-Voyager, que pode gerar vídeos em 3D a partir de uma única imagem, controlando a trajetória da câmera para “aprender” cenas virtuais. O algoritmo gera simultaneamente vídeo RGB e informações de profundidade (RGB-D), permitindo a reconstrução em 3D sem a necessidade de técnicas de modelagem tradicionais.

Crédito da imagem: Tencent
O resultado do HunyuanWorld-Voyager não é, na verdade, um modelo 3D real, mas cria um efeito semelhante. O algoritmo de IA gera quadros de vídeo 2D que mantêm a consistência espacial, como se a câmera estivesse se movendo em um espaço 3D real. Apenas 49 quadros são criados a cada geração, ou cerca de dois segundos de vídeo. De acordo com a Tencent, vários clipes podem ser combinados em sequências com duração de “vários minutos”. Os objetos mantêm sua posição enquanto a câmera se move ao redor deles, e a perspectiva muda corretamente, como se estivesse acontecendo em um ambiente 3D real. Embora o resultado seja um vídeo com mapas de profundidade e não um modelo 3D completo, esses dados podem ser convertidos em nuvens de pontos 3D para posterior reconstrução.
O sistema funciona com base em uma única imagem de origem e uma trajetória de câmera definida pelo usuário. A câmera pode ser configurada para se mover para frente, para trás, para a esquerda, para a direita ou para girar, para a qual é fornecida uma interface de controle. O sistema combina dados de imagem e profundidade com outros dados para criar uma sequência de vídeo que reflete o movimento da câmera especificado pelo usuário.
A principal limitação de todos os modelos de IA baseados na arquitetura Transformer é que eles imitam principalmente padrões encontrados nos dados de treinamento, o que limita sua capacidade de “generalizar”, ou seja, aplicar esses padrões a novas situações que não foram encontradas durante o treinamento. Para treinar o HunyuanWorld-Voyager, os pesquisadores utilizaram mais de 100.000 videoclipes, incluindo cenas geradas por computador na Unreal Engine. Em essência, eles treinaram o algoritmo de IA.simular o movimento de câmeras 3D em um ambiente de videogame.
A maioria dos geradores de IA, como o Sora, produz quadros com aparência realista um após o outro, sem tentar rastrear ou manter a consistência espacial. Em contraste, o HunyuanWorld-Voyager é treinado para reconhecer e reproduzir padrões espacialmente consistentes, mas com a adição de feedback geométrico. À medida que gera cada quadro, ele transforma a saída em um objeto de ponto 3D e, em seguida, projeta esses pontos de volta em 2D para uso em quadros futuros.
Essa abordagem força o modelo de IA a combinar padrões aprendidos anteriormente com projeções geometricamente consistentes aprendidas ao longo do caminho. Isso proporciona uma consistência espacial muito melhor do que outros geradores de vídeo de IA. No entanto, a abordagem ainda depende da correspondência de padrões com base em restrições geométricas, em vez de uma “compreensão” 3D completa. Isso explica por que o modelo de IA consegue manter a consistência por vários minutos, mas tem dificuldade para lidar com uma rotação de cena de 360°. Erros de correspondência de padrões se acumulam ao longo de muitos quadros até que as restrições geométricas não consigam mais manter a consistência.
De acordo com a Tencent, o HunyuanWorld-Voyager utiliza dois blocos de construção principais que funcionam em conjunto. Primeiro, o sistema gera vídeo colorido e informações de profundidade simultaneamente para garantir uma correspondência perfeita. Segundo, ele utiliza o que a Tencent chama de “cache global” — uma coleção crescente de modelos de pontos 3D criados a partir de quadros gerados anteriormente.No processo de geração de novos quadros, essa nuvem de pontos 3D é projetada de volta para 2D a partir do novo ângulo da câmera para criar imagens que mostram o que deveria ser visível com base nos quadros anteriores. O modelo então usa essas projeções para realizar a verificação de consistência, garantindo que os novos quadros correspondam aos já gerados.

O HunyuanWorld-Voyager baseia-se no modelo de IA anterior, HunyuanWorld 1.0, da Tencent, lançado em julho. O algoritmo também faz parte do ecossistema Hunyuan da Tencent, que também inclui o Hunyuan3D-2 para gerar objetos 3D a partir de descrições de texto e o HunyuanVideo para gerar vídeos.
O HunyuanWorld-Voyager requer um poder de computação significativo para ser executado. A Tencent recomenda pelo menos 60 GB de memória de vídeo para gerar cenas 3D com resolução de 540p, ou 80 GB de memória de vídeo para maior qualidade de imagem. O código-fonte do modelo de IA e a documentação que o acompanha podem ser acessados no portal Hugging Face. Assim como outros modelos de IA da família Hunyuan, o novo algoritmo possui restrições significativas de licenciamento. Por exemplo, a licença proíbe o uso do HunyuanWorld-Voyager na UE, Reino Unido e Coreia do Sul. O uso comercial que exija serviço para mais de 100 milhões de usuários por mês exige uma licença separada.
