Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Google introduziu uma rede neural que gera vídeo HD a partir de uma descrição de texto

O Google falou sobre o sistema de inteligência artificial Imagen Video, que gera vídeo de alta resolução (1280 × 768 pixels, 24 quadros por segundo) a partir de uma descrição de texto. No entanto, por medo de que o modelo gere conteúdo impróprio, a empresa decidiu se abster de publicar o código-fonte do projeto por enquanto.

Fonte da imagem: imagen.research.google

Na descrição (PDF) da solução, o Google observou que o Imagen Video é capaz de trabalhar em um determinado estilo, imitando, por exemplo, os modos de artistas famosos, criar objetos 3D giratórios mantendo sua forma ou retratar texto em várias animações gêneros. A tecnologia assenta numa “cascata” de modelos que, a partir de uma descrição textual, criam um protótipo de vídeo (16 frames numa resolução de 24×48 pixels a uma frequência de 3 frames por segundo), que é depois convertido num vídeo vídeo de alta resolução com uma taxa de quadros mais alta em várias etapas. O vídeo final tem 5,3 segundos de duração.

Os exemplos apresentados no Imagen Video variam de cenas simples como “Sorvete de pistache derretendo pingando em um copo” a cenários intrincados como “Voando em uma batalha de navios piratas em um oceano tempestuoso”. As imagens contêm artefatos óbvios, mas seus detalhes e suavidade são notavelmente maiores do que os das contrapartes existentes. Paralelamente, outro modelo de IA do Google estreou para gerar vídeos a partir de uma descrição de texto – Phenaki cria vídeos mais longos.

O Google disse que o sistema Imagen Video foi treinado no LAION-400M, disponível publicamente, que contém “14 milhões de pares de vídeo-texto e 60 milhões de pares de imagem-texto”. Segundo a empresa, trata-se de “dados problemáticos” e, embora especialistas tenham tentado filtrá-los, ainda é possível que o modelo gere conteúdo inadequado contendo cenas de natureza sensível, violência, estereótipos sociais e preconceito cultural. E “até que essas preocupações sejam resolvidas”, o código-fonte do modelo Imagen Video não será publicado.

avalanche

Próximo Google Chrome é o navegador mais vulnerável de 2022 »

Anterior « A Intel alcançou um rendimento recorde de chips quânticos adequados - 95%

Deixar comentário

Publicado por

avalanche

4 anos atrás

Postagens recentes

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Habilidades maliciosas do agente de IA OpenClaw foram descobertas na plataforma ClawHub.

Especialistas em cibersegurança da Unit 42 da Palo Alto Networks descobriram cinco habilidades do agente…

39 minutos atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Backdoor do Mistic Ghost Descoberto – Ele Desaparece Após Ataque Hacker, Abrindo Caminho Para Extorsionistas

O backdoor autodestrutivo Mistic, também conhecido como MLTBackdoor, que vem sendo usado em ataques cibernéticos…

39 minutos atrás

Na vanguarda da ciência

O coração da Via Láctea foi capturado com detalhes e resolução incríveis.

O Observatório Espacial Europeu Euclid, projetado para estudar matéria escura e energia escura, provou inesperadamente…

39 minutos atrás

Discos rígidos, sistemas de armazenamento, interfaces, NAS

Constatou-se que pen drives chineses estavam infectados com vírus durante a produção.

Esta semana, o Nikkei noticiou casos de infecção de computadores isolados na infraestrutura das Forças…

39 minutos atrás

Carros, motos, veículos

CATL: As baterias de sódio e de estado sólido ainda estão a vários anos de serem amplamente adotadas em veículos elétricos.

A concorrência no mercado chinês de veículos elétricos está forçando as montadoras a constantemente atrair…

39 minutos atrás

O mundo da robótica

As grandes empresas de tecnologia alugaram centros de dados no valor de US$ 850 bilhões, com a Meta✴ e a Microsoft liderando o setor.

A Meta✴ e a Microsoft assinaram, cada uma, novos contratos de locação de data centers…

1 hora atrás

Google introduziu uma rede neural que gera vídeo HD a partir de uma descrição de texto

Conteúdo relacionado

Postagens recentes

Habilidades maliciosas do agente de IA OpenClaw foram descobertas na plataforma ClawHub.

Backdoor do Mistic Ghost Descoberto – Ele Desaparece Após Ataque Hacker, Abrindo Caminho Para Extorsionistas

O coração da Via Láctea foi capturado com detalhes e resolução incríveis.

Constatou-se que pen drives chineses estavam infectados com vírus durante a produção.

CATL: As baterias de sódio e de estado sólido ainda estão a vários anos de serem amplamente adotadas em veículos elétricos.

As grandes empresas de tecnologia alugaram centros de dados no valor de US$ 850 bilhões, com a Meta✴ e a Microsoft liderando o setor.