O Google apresentou uma nova família de modelos de IA generativa, Gemini Omni, projetada para criar conteúdo a partir de qualquer tipo de entrada. O primeiro produto da linha é a rede neural Gemini Omni Flash, capaz de gerar vídeos a partir de texto, fotos, áudio e outras gravações de vídeo. O algoritmo combina recursos multimodais com um profundo conhecimento das leis da física e do mundo real.
Fonte da imagem: Google
Uma diferença fundamental entre o novo sistema e o modelo Veo existente, como o Google escreve em sua postagem no blog, é a capacidade de converter um vídeo em outro. O algoritmo não apenas gera elementos visuais, mas também permite a edição da filmagem original usando linguagem natural em formato de diálogo, preservando a lógica da cena e a sequência de ações dos personagens a cada nova solicitação. Como observa Dumitru Erhan, Diretor Sênior de Pesquisa do Google DeepMind, o sistema atualmente consegue criar vídeos com áudio de até 10 segundos de duração, mas a empresa já está trabalhando para aumentar esse limite.
O modelo se baseia na extensa base de conhecimento do ecossistema Gemini, permitindo criar cenas com contexto histórico e científico, além de reproduzir com precisão a gravidade e a dinâmica de fluidos. Koray Kavukcuoglu, CTO do Google DeepMind e arquiteto-chefe de IA do Google, enfatizou que a nova tecnologia possui muito mais informações sobre o mundo do que os desenvolvimentos anteriores. Os usuários também poderão gerar seus próprios avatares digitais e dar-lhes voz. A líder da equipe de desenvolvimento de produto, Nicole Brichtova, observou que esse recurso de integrar a própria aparência era muito solicitado no modelo de geração de imagens Nano Banana do ano passado, que gerou mais de 50 bilhões de imagens.
Por motivos de segurança, a empresa limita atualmente a capacidade do algoritmo de alterar a fala em vídeos, e todos os vídeos gerados são automaticamente marcados com uma marca d’água digital invisível, o SynthID, para verificar a autenticidade do conteúdo. No futuro, os desenvolvedores planejam adicionar suporte para saída de áudio e imagens estáticas. O modelo Gemini Omni Flash já está disponível globalmente para assinantes do Google AI Plus, Pro e Ultra por meio do aplicativo Gemini e do Google Flow.
A partir desta semana, o acesso gratuito ao gerador também estará disponível para usuários dos aplicativos YouTube Shorts e YouTube Create.
Em entrevista ao The Game Business durante o Summer Game Fest 2026, o novo diretor…
Esta semana começou com uma queda nos preços das ações de muitas empresas asiáticas ligadas…
Em preparação para seu IPO, a empresa aeroespacial SpaceX adquiriu a startup de IA xAI,…
O Google lançou atualizações de emergência para o Chrome, corrigindo uma vulnerabilidade do navegador que…
A Capcom, editora e desenvolvedora japonesa, anunciou que as vendas de Street Fighter 6 ultrapassaram…
Tim Cook fez o que se espera ser sua apresentação final como CEO da Apple,…