NVIDIA apresenta AI que gera vídeo de alta resolução a partir de descrição de texto

A NVIDIA revelou seu modelo de IA de texto para vídeo chamado VideoLDM, desenvolvido em colaboração com pesquisadores da Cornell University. O modelo é capaz de gerar vídeo com resolução de até 2048 × 1280 pixels, frequência de 24 quadros e duração de até 4,7 segundos com base em uma descrição de texto.

Fonte da imagem: NVIDIA

O modelo é baseado nos desenvolvimentos da rede neural Stable Diffusion. A solução NVIDIA tem até 4,1 bilhões de parâmetros, mas apenas 2,7 bilhões deles usaram vídeo para treinamento. Isso é bastante modesto para os padrões da IA ​​moderna. No entanto, com uma abordagem eficiente de modelo de difusão latente (LDM), os desenvolvedores conseguiram criar vídeos de alta definição diversificados e consistentes no tempo com qualidade muito alta.

Os pesquisadores destacam as seguintes características desse modelo: geração de vídeo personalizada e síntese convolucional no tempo. Camadas temporais que foram treinadas no VideoLDM para transformar texto em vídeo são inseridas em redes de referência de imagens LDM que são ajustadas antecipadamente no conjunto de imagens DreamBooth. As camadas temporais são resumidas pelos pontos de interrupção do DreamBooth, permitindo que você personalize a conversão de texto para vídeo. Ao aplicar as camadas temporais aprendidas de forma convolucional ao longo do tempo, você pode obter clipes ligeiramente mais longos com pouca degradação na qualidade.

O modelo também é capaz de gerar vídeos de cenas de direção. Os vídeos têm resolução de 1024 × 512 pixels e duram até 5 minutos. É possível simular um cenário de direção específico, quando caixas delimitadoras são tomadas como base para criar um ambiente interessante, um quadro inicial apropriado é sintetizado e, então, vídeos verossímeis são criados. Além disso, o modelo pode fazer previsão de cenário de movimento multimodal, gerando várias implantações plausíveis com base em um único quadro inicial.

Este trabalho de pesquisa é um participante da Conferência de Visão de Máquina e Reconhecimento de Padrões, que acontece em Vancouver de 18 a 22 de junho. Até agora, a rede neural apresentada é apenas um projeto de pesquisa e não está claro quando a NVIDIA lançará algo assim ao público.

avalanche

Postagens recentes

O Internet Archive está assumindo a tarefa de curar a internet da “deterioração de links”.

O Internet Archive Project é uma organização sem fins lucrativos que, como o próprio nome…

6 horas atrás

“Então Concord não te ensinou nada?” A Sony anunciou o jogo de ação cooperativo Horizon Hunters Gathering, e os fãs estão confusos.

A editora Sony Interactive Entertainment e a desenvolvedora Guerrilla Games revelaram por completo o spin-off…

7 horas atrás

O Bitcoin despencou para menos de US$ 67.000, com os investidores assustados e vendendo suas moedas.

O Bitcoin caiu para US$ 66.896,43 hoje, com o sentimento dos investidores se inclinando cada…

7 horas atrás

A Starlink se tornou uma mina de ouro para a SpaceX e está prestes a se expandir, passando de dispositivos de IA para satélites ao controle orbital.

Antecipando seu IPO previsto para este ano, a SpaceX planeja expandir sua divisão Starlink e…

7 horas atrás

A Intel desenvolveu uma nova geração de capacitores integrados — a chave para o fornecimento estável de energia para os chips de IA do futuro.

Ao discutirmos novas tecnologias de processo, constantemente mencionamos os transistores como componentes-chave que determinam o…

7 horas atrás

The Elder Scrolls IV: Oblivion Remastered chegará ao Nintendo Switch 2, mas os fãs não estão exatamente entusiasmados.

Juntamente com as datas de lançamento das versões para Nintendo Switch 2 de Fallout 4…

8 horas atrás