Categorias: Mercado de tecnologia e TI. notíciaProgramas

A rede neural generativa VASA-1 da Microsoft cria vídeo a partir de uma única imagem

Nos últimos anos, as redes neurais generativas superaram um importante estágio de desenvolvimento, tornando-se mais poderosas e capazes de criar não apenas imagens, mas também vídeos baseados em descrições de texto. O novo algoritmo VASA-1 da Microsoft provavelmente surpreenderá muitos porque não requer nenhuma descrição para funcionar. Basta fornecer uma imagem de uma pessoa e uma trilha de áudio, a partir da qual a rede neural gerará um vídeo de uma pessoa falante com uma ampla gama de emoções e expressões faciais naturais.

Fonte da imagem: Microsoft

O resultado do VASA-1 parece muito natural e verossímil. A partir de apenas uma foto de um rosto e uma gravação de voz, o algoritmo cria um vídeo realista em que a pessoa capturada na foto literalmente “ganha vida” e suas expressões faciais, movimentos de lábios e cabeça parecem completamente naturais. Como os vídeos criados com o VASA-1 são difíceis de distinguir imediatamente dos reais, já existem preocupações de que o algoritmo possa ser usado por invasores para criar falsificações.

Quanto à própria rede neural, seu principal diferencial em relação a outros algoritmos semelhantes é a presença de um modelo holístico para geração de expressões faciais e movimentos de cabeça. A Microsoft conduziu uma extensa pesquisa, incluindo a avaliação de uma série de novas métricas. Como resultado, eles descobriram que o novo algoritmo supera significativamente os análogos apresentados anteriormente em muitos aspectos.

«Nosso método não apenas gera vídeo de alta qualidade com expressões faciais e movimentos de cabeça realistas, mas também suporta a geração de vídeo online de 512×512 pixels a 40 quadros por segundo com atraso inicial insignificante. Isso abre caminho para interações em tempo real com avatares realistas que imitam o comportamento conversacional humano”, afirmou a Microsoft em comunicado.

Em outras palavras, a rede neural pode criar vídeos falsos de alta qualidade baseados em apenas uma imagem. Portanto, não é surpreendente que a Microsoft chame o VASA-1 de “demonstração de pesquisa” e não tenha planos de trazê-lo ao mercado comercial, pelo menos não tão cedo.

avalanche

Próximo SK hynix e TSMC colaborarão na produção do HBM4 »

Anterior « A Intel concluiu a instalação do primeiro scanner de litografia High-NA, que permitirá a produção de chips usando a tecnologia Intel 14A

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Periféricos de áudio / vídeo, fones de ouvido, webcams

Inteligência Artificial Analógica: Agora Baseada em Capacitores / Offsyanka

Em meados de 2025, a EnCharge AI, uma startup fundada por Naveen Verma, professor da…

2 horas atrás

Periféricos de áudio / vídeo, fones de ouvido, webcams

A Razer lançou os fones de ouvido gamer Hammerhead V3 HyperSpeed TWS com baixa latência e cancelamento de ruído por US$ 130, além de um modelo mais simples.

A Razer lançou os fones de ouvido gamer sem fio Hammerhead V3 HyperSpeed. Eles oferecem…

3 horas atrás

Fontes de alimentação, adaptadores, fontes de alimentação

A Asus apresentou o ROG Equalizer, um cabo 12V-2×6 com proteção aprimorada contra derretimento, que alguns usuários receberão gratuitamente.

A Asus apresentou o ROG Equalizer, um cabo de alimentação VGA 12V-2x6 projetado para fornecer…

4 horas atrás

Jogos

Crimson Desert começou a funcionar em algumas placas gráficas Intel, mas é melhor não ativar o FSR.

Crimson Desert começou a funcionar em pelo menos alguns sistemas com placas gráficas Intel Arc…

5 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A Samsung aumentou discretamente os preços das versões mais sofisticadas do Galaxy Z Fold 7.

A Samsung aumentou discretamente o preço de dois modelos do smartphone Galaxy Z Fold 7.…

5 horas atrás

Jogos

“Morra, adapte-se, evolua”: o frenético jogo de ação roguelite Morbid Metal entrou em Acesso Antecipado e recebeu elogios dos jogadores.

A desenvolvedora Screen Juice, com o apoio da Ubisoft, abriu o acesso antecipado de Morbid…

5 horas atrás

A rede neural generativa VASA-1 da Microsoft cria vídeo a partir de uma única imagem

Conteúdo relacionado

Postagens recentes

Inteligência Artificial Analógica: Agora Baseada em Capacitores / Offsyanka

A Razer lançou os fones de ouvido gamer Hammerhead V3 HyperSpeed ​​TWS com baixa latência e cancelamento de ruído por US$ 130, além de um modelo mais simples.

A Asus apresentou o ROG Equalizer, um cabo 12V-2×6 com proteção aprimorada contra derretimento, que alguns usuários receberão gratuitamente.

Crimson Desert começou a funcionar em algumas placas gráficas Intel, mas é melhor não ativar o FSR.

A Samsung aumentou discretamente os preços das versões mais sofisticadas do Galaxy Z Fold 7.

“Morra, adapte-se, evolua”: o frenético jogo de ação roguelite Morbid Metal entrou em Acesso Antecipado e recebeu elogios dos jogadores.

A Razer lançou os fones de ouvido gamer Hammerhead V3 HyperSpeed TWS com baixa latência e cancelamento de ruído por US$ 130, além de um modelo mais simples.