Esta semana, a empresa chinesa Tencent revelou um novo modelo de IA de código aberto, o HunyuanWorld-Voyager, que pode gerar vídeos em 3D a partir de uma única imagem, controlando a trajetória da câmera para “aprender” cenas virtuais. O algoritmo gera simultaneamente vídeo RGB e informações de profundidade (RGB-D), permitindo a reconstrução em 3D sem a necessidade de técnicas de modelagem tradicionais.
Crédito da imagem: Tencent
O resultado do HunyuanWorld-Voyager não é, na verdade, um modelo 3D real, mas cria um efeito semelhante. O algoritmo de IA gera quadros de vídeo 2D que mantêm a consistência espacial, como se a câmera estivesse se movendo em um espaço 3D real. Apenas 49 quadros são criados a cada geração, ou cerca de dois segundos de vídeo. De acordo com a Tencent, vários clipes podem ser combinados em sequências com duração de “vários minutos”. Os objetos mantêm sua posição enquanto a câmera se move ao redor deles, e a perspectiva muda corretamente, como se estivesse acontecendo em um ambiente 3D real. Embora o resultado seja um vídeo com mapas de profundidade e não um modelo 3D completo, esses dados podem ser convertidos em nuvens de pontos 3D para posterior reconstrução.
O sistema funciona com base em uma única imagem de origem e uma trajetória de câmera definida pelo usuário. A câmera pode ser configurada para se mover para frente, para trás, para a esquerda, para a direita ou para girar, para a qual é fornecida uma interface de controle. O sistema combina dados de imagem e profundidade com outros dados para criar uma sequência de vídeo que reflete o movimento da câmera especificado pelo usuário.
A principal limitação de todos os modelos de IA baseados na arquitetura Transformer é que eles imitam principalmente padrões encontrados nos dados de treinamento, o que limita sua capacidade de “generalizar”, ou seja, aplicar esses padrões a novas situações que não foram encontradas durante o treinamento. Para treinar o HunyuanWorld-Voyager, os pesquisadores utilizaram mais de 100.000 videoclipes, incluindo cenas geradas por computador na Unreal Engine. Em essência, eles treinaram o algoritmo de IA.simular o movimento de câmeras 3D em um ambiente de videogame.
A maioria dos geradores de IA, como o Sora, produz quadros com aparência realista um após o outro, sem tentar rastrear ou manter a consistência espacial. Em contraste, o HunyuanWorld-Voyager é treinado para reconhecer e reproduzir padrões espacialmente consistentes, mas com a adição de feedback geométrico. À medida que gera cada quadro, ele transforma a saída em um objeto de ponto 3D e, em seguida, projeta esses pontos de volta em 2D para uso em quadros futuros.
Essa abordagem força o modelo de IA a combinar padrões aprendidos anteriormente com projeções geometricamente consistentes aprendidas ao longo do caminho. Isso proporciona uma consistência espacial muito melhor do que outros geradores de vídeo de IA. No entanto, a abordagem ainda depende da correspondência de padrões com base em restrições geométricas, em vez de uma “compreensão” 3D completa. Isso explica por que o modelo de IA consegue manter a consistência por vários minutos, mas tem dificuldade para lidar com uma rotação de cena de 360°. Erros de correspondência de padrões se acumulam ao longo de muitos quadros até que as restrições geométricas não consigam mais manter a consistência.
De acordo com a Tencent, o HunyuanWorld-Voyager utiliza dois blocos de construção principais que funcionam em conjunto. Primeiro, o sistema gera vídeo colorido e informações de profundidade simultaneamente para garantir uma correspondência perfeita. Segundo, ele utiliza o que a Tencent chama de “cache global” — uma coleção crescente de modelos de pontos 3D criados a partir de quadros gerados anteriormente.No processo de geração de novos quadros, essa nuvem de pontos 3D é projetada de volta para 2D a partir do novo ângulo da câmera para criar imagens que mostram o que deveria ser visível com base nos quadros anteriores. O modelo então usa essas projeções para realizar a verificação de consistência, garantindo que os novos quadros correspondam aos já gerados.
O HunyuanWorld-Voyager baseia-se no modelo de IA anterior, HunyuanWorld 1.0, da Tencent, lançado em julho. O algoritmo também faz parte do ecossistema Hunyuan da Tencent, que também inclui o Hunyuan3D-2 para gerar objetos 3D a partir de descrições de texto e o HunyuanVideo para gerar vídeos.
O HunyuanWorld-Voyager requer um poder de computação significativo para ser executado. A Tencent recomenda pelo menos 60 GB de memória de vídeo para gerar cenas 3D com resolução de 540p, ou 80 GB de memória de vídeo para maior qualidade de imagem. O código-fonte do modelo de IA e a documentação que o acompanha podem ser acessados no portal Hugging Face. Assim como outros modelos de IA da família Hunyuan, o novo algoritmo possui restrições significativas de licenciamento. Por exemplo, a licença proíbe o uso do HunyuanWorld-Voyager na UE, Reino Unido e Coreia do Sul. O uso comercial que exija serviço para mais de 100 milhões de usuários por mês exige uma licença separada.
A Nvidia e a AMD estão aumentando os preços de seus chips gráficos e kits…
A Intel decidiu descontinuar seus processadores Core de 12ª geração, também conhecidos como Alder Lake.…
Tradicionalmente, as fontes de alimentação continuam sendo um dos componentes de PC mais subestimados, apesar…
A Asus lançou novos recursos de ajuste de cores para monitores selecionados da série ProArt,…
De acordo com novos dados da consultoria Gartner, as remessas globais de PCs por meio…
Raymond Chen, da Microsoft, explicou por que manter pressionada a tecla Shift durante a reinicialização…