Pesquisadores do Instituto Alibaba de Computação Inteligente desenvolveram (PDF) um sistema de inteligência artificial chamado EMO (Emote Portrait Alive) que anima uma imagem estática de uma pessoa para fazê-la falar ou cantar de forma realista.

Fonte da imagem: youtube.com/@ai_beauty303

O sistema retrata expressões faciais e movimentos de cabeça realistas que correspondem exatamente aos tons emocionais do áudio a partir do qual a animação é gerada. “Os métodos tradicionais muitas vezes são incapazes de capturar toda a gama de expressões faciais humanas e a singularidade dos estilos faciais individuais. Para resolver esses problemas, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais”, explicou o líder da equipe de desenvolvimento, Linrui Tian.

O sistema EMO é baseado em um modelo de difusão de IA que se mostrou capaz de gerar imagens realistas. Os pesquisadores treinaram-no em um conjunto de dados que incluía mais de 250 horas de gravações de vídeo de falantes: discursos, clipes de filmes, programas de TV e performances vocais. Ao contrário dos métodos anteriores, que envolvem a criação de um modelo tridimensional ou mecanismos de simulação de expressões faciais humanas, o EMO envolve a conversão direta de som em vídeo. Isso permite que o sistema transmita os menores movimentos e traços de personalidade associados à fala natural.

Os autores do projeto afirmam que o EMO supera os métodos existentes em termos de qualidade de vídeo, preservação de identidade e expressividade. Os pesquisadores entrevistaram um grupo focal e mostraram que os vídeos criados pelo EMO eram mais naturais e emocionais do que aqueles produzidos por outros sistemas. O sistema cria animações não apenas baseadas na fala, mas também usando áudio com voz – leva em consideração o formato da boca da pessoa na imagem original, adiciona expressões faciais adequadas e sincroniza os movimentos com a parte vocal. O único problema com a EMO é o potencial de abuso desta tecnologia. Os pesquisadores dizem que planejam estudar métodos para identificar vídeos gerados por IA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *