Pesquisadores do Instituto Alibaba de Computação Inteligente desenvolveram (PDF) um sistema de inteligência artificial chamado EMO (Emote Portrait Alive) que anima uma imagem estática de uma pessoa para fazê-la falar ou cantar de forma realista.
Fonte da imagem: youtube.com/@ai_beauty303
O sistema retrata expressões faciais e movimentos de cabeça realistas que correspondem exatamente aos tons emocionais do áudio a partir do qual a animação é gerada. “Os métodos tradicionais muitas vezes são incapazes de capturar toda a gama de expressões faciais humanas e a singularidade dos estilos faciais individuais. Para resolver esses problemas, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais”, explicou o líder da equipe de desenvolvimento, Linrui Tian.
O sistema EMO é baseado em um modelo de difusão de IA que se mostrou capaz de gerar imagens realistas. Os pesquisadores treinaram-no em um conjunto de dados que incluía mais de 250 horas de gravações de vídeo de falantes: discursos, clipes de filmes, programas de TV e performances vocais. Ao contrário dos métodos anteriores, que envolvem a criação de um modelo tridimensional ou mecanismos de simulação de expressões faciais humanas, o EMO envolve a conversão direta de som em vídeo. Isso permite que o sistema transmita os menores movimentos e traços de personalidade associados à fala natural.
Os autores do projeto afirmam que o EMO supera os métodos existentes em termos de qualidade de vídeo, preservação de identidade e expressividade. Os pesquisadores entrevistaram um grupo focal e mostraram que os vídeos criados pelo EMO eram mais naturais e emocionais do que aqueles produzidos por outros sistemas. O sistema cria animações não apenas baseadas na fala, mas também usando áudio com voz – leva em consideração o formato da boca da pessoa na imagem original, adiciona expressões faciais adequadas e sincroniza os movimentos com a parte vocal. O único problema com a EMO é o potencial de abuso desta tecnologia. Os pesquisadores dizem que planejam estudar métodos para identificar vídeos gerados por IA.
A rede social X destinou US$ 1 milhão para incentivar criadores de conteúdo a transmitirem…
Segundo o Financial Times, a introdução da inteligência artificial generativa afetou diretamente o sistema judicial…
Golpistas, que causaram prejuízos de US$ 68 bilhões a cidadãos somente nos EUA no ano…
Os engenheiros chineses não abandonaram a ideia de um "lançamento elétrico" para foguetes — fornecendo…
A SK Hynix anunciou sua intenção de investir 100 trilhões de won (mais de US$…
O estúdio uzbeque Kraken Express divulgou detalhes da primeira grande atualização de conteúdo para o…