Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Google introduziu uma rede neural que gera vídeo HD a partir de uma descrição de texto

O Google falou sobre o sistema de inteligência artificial Imagen Video, que gera vídeo de alta resolução (1280 × 768 pixels, 24 quadros por segundo) a partir de uma descrição de texto. No entanto, por medo de que o modelo gere conteúdo impróprio, a empresa decidiu se abster de publicar o código-fonte do projeto por enquanto.

Fonte da imagem: imagen.research.google

Na descrição (PDF) da solução, o Google observou que o Imagen Video é capaz de trabalhar em um determinado estilo, imitando, por exemplo, os modos de artistas famosos, criar objetos 3D giratórios mantendo sua forma ou retratar texto em várias animações gêneros. A tecnologia assenta numa “cascata” de modelos que, a partir de uma descrição textual, criam um protótipo de vídeo (16 frames numa resolução de 24×48 pixels a uma frequência de 3 frames por segundo), que é depois convertido num vídeo vídeo de alta resolução com uma taxa de quadros mais alta em várias etapas. O vídeo final tem 5,3 segundos de duração.

Os exemplos apresentados no Imagen Video variam de cenas simples como “Sorvete de pistache derretendo pingando em um copo” a cenários intrincados como “Voando em uma batalha de navios piratas em um oceano tempestuoso”. As imagens contêm artefatos óbvios, mas seus detalhes e suavidade são notavelmente maiores do que os das contrapartes existentes. Paralelamente, outro modelo de IA do Google estreou para gerar vídeos a partir de uma descrição de texto – Phenaki cria vídeos mais longos.

O Google disse que o sistema Imagen Video foi treinado no LAION-400M, disponível publicamente, que contém “14 milhões de pares de vídeo-texto e 60 milhões de pares de imagem-texto”. Segundo a empresa, trata-se de “dados problemáticos” e, embora especialistas tenham tentado filtrá-los, ainda é possível que o modelo gere conteúdo inadequado contendo cenas de natureza sensível, violência, estereótipos sociais e preconceito cultural. E “até que essas preocupações sejam resolvidas”, o código-fonte do modelo Imagen Video não será publicado.

avalanche

Próximo Google Chrome é o navegador mais vulnerável de 2022 »

Anterior « A Intel alcançou um rendimento recorde de chips quânticos adequados - 95%

Deixar comentário

Publicado por

avalanche

3 anos atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O Google atualizou seu assistente de IA para casas inteligentes: o Gemini in Home agora entende melhor comandos complexos.

O Google lançou uma atualização para o aplicativo Home que aprimora a capacidade do assistente…

20 minutos atrás

Manipuladores, dispositivos gráficos de entrada

A 8BitDo lançou o teclado mecânico Retro 68 AP50, com preço de US$ 500, no estilo do computador Apple II.

A fabricante de periféricos para computador 8BitDo decidiu celebrar o 50º aniversário da Apple à…

20 minutos atrás

Na vanguarda da ciência

A inteligência artificial foi incorporada à criação de um reator nuclear atípico, patrocinado por Bill Gates, tornando o processo mais eficiente.

Uma empresa americana apoiada por uma das fundações de Bill Gates, em conjunto com a…

41 minutos atrás

Espaço

Falha espacial da Microsoft: a espaçonave Orion, rumo à Lua, tinha duas perspectivas, e nenhuma delas funcionou.

Entusiastas do espaço que acompanhavam a transmissão ao vivo da espaçonave Orion da NASA durante…

1 hora atrás

Jogos

Tudo que é bom chega ao fim: a Microsoft confirmou quando GTA V deixará o Game Pass.

O popular jogo de mundo aberto e suspense policial da Rockstar Games, Grand Theft Auto…

2 horas atrás

Jogos

O jogo de ação furtiva multiplayer Thick as Thieves, do criador de Deus Ex e System Shock, tornou-se um jogo para um jogador com modo cooperativo para dois jogadores.

Thick as Thieves, um ambicioso jogo de ação furtiva com elementos de simulador imersivos, anunciado…

3 horas atrás