«Sber apresentou a rede neural Kandinsky Video, capaz de criar vídeos curtos a partir de uma descrição de texto. O algoritmo gera sequências de vídeo de até 8 segundos de duração a uma frequência de 30 quadros por segundo. O novo produto foi apresentado na conferência AI Journey pelo primeiro vice-presidente do conselho do Sberbank, Alexander Vedyakhin.

Fonte da imagem: sberbank.com

A arquitetura do Kandinsky Video inclui dois blocos principais. O primeiro bloco é responsável por gerar quadros-chave utilizados para criar a estrutura do enredo do vídeo, e o segundo gera quadros de interpolação, conseguindo assim um movimento suave no vídeo final. Ambos os blocos são construídos com base no modelo de síntese de imagens Kandinsky 3.0 baseado em descrições de texto.

Em última análise, o algoritmo cria um vídeo com movimento do sujeito e do fundo. Isto distingue os vídeos gerados por uma rede neural dos vídeos animados, nos quais a dinâmica é obtida simulando o voo de uma câmera em relação a uma cena estática. Atualmente, o Kandinsky Video pode criar vídeos com resolução de 512×512 pixels e diferentes proporções. Para treinar o algoritmo, foi utilizado um conjunto de dados de mais de 300 mil pares texto-vídeo. O próprio processo de geração de vídeo leva até 3 minutos.

Observa-se que anteriormente alguns usuários da rede neural Kandinsky 2.2 em modo de teste obtiveram acesso à função de criação de vídeos animados. Apenas uma solicitação é suficiente para gerar um vídeo de até 4 segundos de duração com efeitos de animação selecionados, frequência de 24 quadros por segundo e resolução de 640 × 640 pixels. Os usuários da nova versão do Kandinsky 3.0 também podem gerar vídeos baseados em descrições de texto em modo de animação.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *