Categorias: Editores de vídeoMercado de tecnologia e TI. notícia

Alibaba introduziu a rede neural EMO – ela dá vida a retratos, fazendo-os falar e até cantar

Pesquisadores do Instituto Alibaba de Computação Inteligente desenvolveram (PDF) um sistema de inteligência artificial chamado EMO (Emote Portrait Alive) que anima uma imagem estática de uma pessoa para fazê-la falar ou cantar de forma realista.

Fonte da imagem: youtube.com/@ai_beauty303

O sistema retrata expressões faciais e movimentos de cabeça realistas que correspondem exatamente aos tons emocionais do áudio a partir do qual a animação é gerada. “Os métodos tradicionais muitas vezes são incapazes de capturar toda a gama de expressões faciais humanas e a singularidade dos estilos faciais individuais. Para resolver esses problemas, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, evitando a necessidade de modelos 3D intermediários ou pontos de referência faciais”, explicou o líder da equipe de desenvolvimento, Linrui Tian.

O sistema EMO é baseado em um modelo de difusão de IA que se mostrou capaz de gerar imagens realistas. Os pesquisadores treinaram-no em um conjunto de dados que incluía mais de 250 horas de gravações de vídeo de falantes: discursos, clipes de filmes, programas de TV e performances vocais. Ao contrário dos métodos anteriores, que envolvem a criação de um modelo tridimensional ou mecanismos de simulação de expressões faciais humanas, o EMO envolve a conversão direta de som em vídeo. Isso permite que o sistema transmita os menores movimentos e traços de personalidade associados à fala natural.

Os autores do projeto afirmam que o EMO supera os métodos existentes em termos de qualidade de vídeo, preservação de identidade e expressividade. Os pesquisadores entrevistaram um grupo focal e mostraram que os vídeos criados pelo EMO eram mais naturais e emocionais do que aqueles produzidos por outros sistemas. O sistema cria animações não apenas baseadas na fala, mas também usando áudio com voz – leva em consideração o formato da boca da pessoa na imagem original, adiciona expressões faciais adequadas e sincroniza os movimentos com a parte vocal. O único problema com a EMO é o potencial de abuso desta tecnologia. Os pesquisadores dizem que planejam estudar métodos para identificar vídeos gerados por IA.

avalanche

Próximo Renderizações do Samsung Galaxy Z Flip 6 publicadas »

Anterior « Um upscaling para todos: a Microsoft anunciou DirectSR para unificar as abordagens da Nvidia, AMD e Intel

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Notícias e análises financeiras

De acordo com o Goldman Sachs, o impacto da IA na economia dos EUA no ano passado foi quase insignificante.

No ano passado, o PIB dos EUA cresceu 2,2%, mas especialistas do Goldman Sachs acreditam…

22 minutos atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A receita da Nvidia disparou 73%, atingindo o recorde de US$ 68,1 bilhões, e a expectativa é de um crescimento adicional de US$ 10 bilhões neste trimestre.

A apresentação trimestral da Nvidia observou que sua receita com servidores cresceu aproximadamente 13 vezes…

1 hora atrás

Software para celular

O Google confiou à Gemini a gestão autônoma de compras dos novos smartphones Pixel e Samsung Galaxy.

O Google introduziu um recurso de automação baseado em agentes para o Gemini nos smartphones…

4 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A Huawei, e não a Nvidia, será responsável pelo aprimoramento do modelo de IA mais recente da DeepSeek.

Segundo a Reuters, a prática global no desenvolvimento de grandes modelos de linguagem envolve uma…

4 horas atrás

Caixas

A Nebius aumentou sua receita trimestral em 547%, ficando ligeiramente abaixo das previsões de Wall Street.

A Nebius (anteriormente Yandex N.V.), provedora de serviços de IA em nuvem, anunciou seus resultados…

7 horas atrás

Caixas

A Nebius aumentou sua receita trimestral em 547%, ficando ligeiramente abaixo das previsões de Wall Street.

A Nebius (anteriormente Yandex N.V.), provedora de serviços de IA em nuvem, anunciou seus resultados…

7 horas atrás

Alibaba introduziu a rede neural EMO – ela dá vida a retratos, fazendo-os falar e até cantar

Conteúdo relacionado

Postagens recentes

De acordo com o Goldman Sachs, o impacto da IA ​​na economia dos EUA no ano passado foi quase insignificante.

A receita da Nvidia disparou 73%, atingindo o recorde de US$ 68,1 bilhões, e a expectativa é de um crescimento adicional de US$ 10 bilhões neste trimestre.

O Google confiou à Gemini a gestão autônoma de compras dos novos smartphones Pixel e Samsung Galaxy.

A Huawei, e não a Nvidia, será responsável pelo aprimoramento do modelo de IA mais recente da DeepSeek.

A Nebius aumentou sua receita trimestral em 547%, ficando ligeiramente abaixo das previsões de Wall Street.

A Nebius aumentou sua receita trimestral em 547%, ficando ligeiramente abaixo das previsões de Wall Street.

De acordo com o Goldman Sachs, o impacto da IA na economia dos EUA no ano passado foi quase insignificante.