A rede neural generativa VASA-1 da Microsoft cria vídeo a partir de uma única imagem

Nos últimos anos, as redes neurais generativas superaram um importante estágio de desenvolvimento, tornando-se mais poderosas e capazes de criar não apenas imagens, mas também vídeos baseados em descrições de texto. O novo algoritmo VASA-1 da Microsoft provavelmente surpreenderá muitos porque não requer nenhuma descrição para funcionar. Basta fornecer uma imagem de uma pessoa e uma trilha de áudio, a partir da qual a rede neural gerará um vídeo de uma pessoa falante com uma ampla gama de emoções e expressões faciais naturais.

Fonte da imagem: Microsoft

O resultado do VASA-1 parece muito natural e verossímil. A partir de apenas uma foto de um rosto e uma gravação de voz, o algoritmo cria um vídeo realista em que a pessoa capturada na foto literalmente “ganha vida” e suas expressões faciais, movimentos de lábios e cabeça parecem completamente naturais. Como os vídeos criados com o VASA-1 são difíceis de distinguir imediatamente dos reais, já existem preocupações de que o algoritmo possa ser usado por invasores para criar falsificações.

Quanto à própria rede neural, seu principal diferencial em relação a outros algoritmos semelhantes é a presença de um modelo holístico para geração de expressões faciais e movimentos de cabeça. A Microsoft conduziu uma extensa pesquisa, incluindo a avaliação de uma série de novas métricas. Como resultado, eles descobriram que o novo algoritmo supera significativamente os análogos apresentados anteriormente em muitos aspectos.

«Nosso método não apenas gera vídeo de alta qualidade com expressões faciais e movimentos de cabeça realistas, mas também suporta a geração de vídeo online de 512×512 pixels a 40 quadros por segundo com atraso inicial insignificante. Isso abre caminho para interações em tempo real com avatares realistas que imitam o comportamento conversacional humano”, afirmou a Microsoft em comunicado.

Em outras palavras, a rede neural pode criar vídeos falsos de alta qualidade baseados em apenas uma imagem. Portanto, não é surpreendente que a Microsoft chame o VASA-1 de “demonstração de pesquisa” e não tenha planos de trazê-lo ao mercado comercial, pelo menos não tão cedo.

avalanche

Postagens recentes

O ContentReader PDF 16, uma alternativa russa ao Abbyy FineReader com um assistente de IA integrado, foi lançado.

A desenvolvedora russa Content AI anunciou o lançamento do ContentReader PDF 16, a próxima geração…

17 minutos atrás

Leon Kennedy, astro de Resident Evil Requiem, é casado, e a Capcom não tem pressa em revelar a identidade de sua escolhida.

Lançado em fevereiro, o jogo de ação e terror Resident Evil Requiem intrigou e deixou…

30 minutos atrás

“Apenas a web, de ponta a ponta”: o navegador Vivaldi aprende a ocultar sua interface.

A versão mais recente do navegador Vivaldi introduz um recurso curioso: nas configurações, você pode…

30 minutos atrás

Um agente de IA enganou funcionários da Meta, levando-os a criar uma falha de segurança.

Na semana passada, um agente de inteligência artificial usado por um funcionário da Meta✴ realizou…

30 minutos atrás

Um estudo descobriu que o Instagram e o TikTok são mais prejudiciais à saúde mental do que o Facebook e o WhatsApp.

Plataformas de redes sociais como Instagram e TikTok, onde os usuários passam horas navegando por…

54 minutos atrás