Google introduziu uma rede neural que gera vídeo HD a partir de uma descrição de texto

O Google falou sobre o sistema de inteligência artificial Imagen Video, que gera vídeo de alta resolução (1280 × 768 pixels, 24 quadros por segundo) a partir de uma descrição de texto. No entanto, por medo de que o modelo gere conteúdo impróprio, a empresa decidiu se abster de publicar o código-fonte do projeto por enquanto.

Fonte da imagem: imagen.research.google

Na descrição (PDF) da solução, o Google observou que o Imagen Video é capaz de trabalhar em um determinado estilo, imitando, por exemplo, os modos de artistas famosos, criar objetos 3D giratórios mantendo sua forma ou retratar texto em várias animações gêneros. A tecnologia assenta numa “cascata” de modelos que, a partir de uma descrição textual, criam um protótipo de vídeo (16 frames numa resolução de 24×48 pixels a uma frequência de 3 frames por segundo), que é depois convertido num vídeo vídeo de alta resolução com uma taxa de quadros mais alta em várias etapas. O vídeo final tem 5,3 segundos de duração.

Os exemplos apresentados no Imagen Video variam de cenas simples como “Sorvete de pistache derretendo pingando em um copo” a cenários intrincados como “Voando em uma batalha de navios piratas em um oceano tempestuoso”. As imagens contêm artefatos óbvios, mas seus detalhes e suavidade são notavelmente maiores do que os das contrapartes existentes. Paralelamente, outro modelo de IA do Google estreou para gerar vídeos a partir de uma descrição de texto – Phenaki cria vídeos mais longos.

O Google disse que o sistema Imagen Video foi treinado no LAION-400M, disponível publicamente, que contém “14 milhões de pares de vídeo-texto e 60 milhões de pares de imagem-texto”. Segundo a empresa, trata-se de “dados problemáticos” e, embora especialistas tenham tentado filtrá-los, ainda é possível que o modelo gere conteúdo inadequado contendo cenas de natureza sensível, violência, estereótipos sociais e preconceito cultural. E “até que essas preocupações sejam resolvidas”, o código-fonte do modelo Imagen Video não será publicado.

avalanche

Postagens recentes

Habilidades maliciosas do agente de IA OpenClaw foram descobertas na plataforma ClawHub.

Especialistas em cibersegurança da Unit 42 da Palo Alto Networks descobriram cinco habilidades do agente…

39 minutos atrás

Backdoor do Mistic Ghost Descoberto – Ele Desaparece Após Ataque Hacker, Abrindo Caminho Para Extorsionistas

O backdoor autodestrutivo Mistic, também conhecido como MLTBackdoor, que vem sendo usado em ataques cibernéticos…

39 minutos atrás

O coração da Via Láctea foi capturado com detalhes e resolução incríveis.

O Observatório Espacial Europeu Euclid, projetado para estudar matéria escura e energia escura, provou inesperadamente…

39 minutos atrás

Constatou-se que pen drives chineses estavam infectados com vírus durante a produção.

Esta semana, o Nikkei noticiou casos de infecção de computadores isolados na infraestrutura das Forças…

39 minutos atrás

CATL: As baterias de sódio e de estado sólido ainda estão a vários anos de serem amplamente adotadas em veículos elétricos.

A concorrência no mercado chinês de veículos elétricos está forçando as montadoras a constantemente atrair…

39 minutos atrás

As grandes empresas de tecnologia alugaram centros de dados no valor de US$ 850 bilhões, com a Meta✴ e a Microsoft liderando o setor.

A Meta✴ e a Microsoft assinaram, cada uma, novos contratos de locação de data centers…

1 hora atrás