O Google lançou o Gemini Omni, um mecanismo de IA para gerar vídeos a partir de texto, fotos, áudio e quaisquer outros dados.

O Google apresentou uma nova família de modelos de IA generativa, Gemini Omni, projetada para criar conteúdo a partir de qualquer tipo de entrada. O primeiro produto da linha é a rede neural Gemini Omni Flash, capaz de gerar vídeos a partir de texto, fotos, áudio e outras gravações de vídeo. O algoritmo combina recursos multimodais com um profundo conhecimento das leis da física e do mundo real.

Fonte da imagem: Google

Uma diferença fundamental entre o novo sistema e o modelo Veo existente, como o Google escreve em sua postagem no blog, é a capacidade de converter um vídeo em outro. O algoritmo não apenas gera elementos visuais, mas também permite a edição da filmagem original usando linguagem natural em formato de diálogo, preservando a lógica da cena e a sequência de ações dos personagens a cada nova solicitação. Como observa Dumitru Erhan, Diretor Sênior de Pesquisa do Google DeepMind, o sistema atualmente consegue criar vídeos com áudio de até 10 segundos de duração, mas a empresa já está trabalhando para aumentar esse limite.

O modelo se baseia na extensa base de conhecimento do ecossistema Gemini, permitindo criar cenas com contexto histórico e científico, além de reproduzir com precisão a gravidade e a dinâmica de fluidos. Koray Kavukcuoglu, CTO do Google DeepMind e arquiteto-chefe de IA do Google, enfatizou que a nova tecnologia possui muito mais informações sobre o mundo do que os desenvolvimentos anteriores. Os usuários também poderão gerar seus próprios avatares digitais e dar-lhes voz. A líder da equipe de desenvolvimento de produto, Nicole Brichtova, observou que esse recurso de integrar a própria aparência era muito solicitado no modelo de geração de imagens Nano Banana do ano passado, que gerou mais de 50 bilhões de imagens.

Por motivos de segurança, a empresa limita atualmente a capacidade do algoritmo de alterar a fala em vídeos, e todos os vídeos gerados são automaticamente marcados com uma marca d’água digital invisível, o SynthID, para verificar a autenticidade do conteúdo. No futuro, os desenvolvedores planejam adicionar suporte para saída de áudio e imagens estáticas. O modelo Gemini Omni Flash já está disponível globalmente para assinantes do Google AI Plus, Pro e Ultra por meio do aplicativo Gemini e do Google Flow.

A partir desta semana, o acesso gratuito ao gerador também estará disponível para usuários dos aplicativos YouTube Shorts e YouTube Create.

O Google lançou o Gemini Omni, um mecanismo de IA para gerar vídeos a partir de texto, fotos, áudio e quaisquer outros dados.

Byadmin

By admin

Veja Mais

A Yandex lançou uma plataforma para a criação de agentes de IA para a Alice AI.

Em alguns cenários, os modelos de IA chineses se equiparam aos americanos.

Uma startup chinesa está se preparando para comercializar um exterminador de mosquitos a laser com inteligência artificial.

Deixe um comentário Cancelar resposta