O Google apresentou o Gemini Live – um assistente de IA com memória, fala natural e visão computacional

Anunciado no Google I/O 2024 na terça-feira, um novo recurso para o chatbot AI da Gemini foi anunciado: Gemini Live, que permite aos usuários ter conversas de voz “aprofundadas” com Gemini em seus smartphones. Os usuários podem interromper o Gemini durante suas conversas para fazer perguntas esclarecedoras, e o chatbot se adaptará à fala do usuário em tempo real. Além disso, o Gemini pode ver e reagir ao entorno do usuário por meio de fotos ou vídeos capturados pelas câmeras do smartphone.

Fonte da imagem: Google

Gemini Live é, de certa forma, uma combinação da plataforma de visão computacional Google Lens e do assistente virtual Google Assistant, e sua evolução posterior. À primeira vista, o Gemini Live não parece uma atualização dramática em relação às tecnologias existentes. Mas o Google diz que o sistema usa novas técnicas generativas de IA para fornecer análises de imagens superiores e menos propensas a erros, e combina essas técnicas com um mecanismo de fala aprimorado para um diálogo passo a passo mais consistente, emocionalmente expressivo e realista.

A inovação técnica por trás do Gemini Live decorre em parte do Projeto Astra, a nova iniciativa da DeepMind para construir aplicativos e “agentes” alimentados por IA que suportam a “compreensão” em tempo real de uma variedade de fontes de dados – texto, áudio e imagens. “Sempre quisemos criar um agente universal que fosse útil na vida cotidiana”, disse Demis Hassabis, CEO da DeepMind, no briefing. “Imagine agentes que podem ver e ouvir o que estamos fazendo, entender melhor o contexto em que estamos e responder rapidamente nas conversas, tornando o ritmo e a qualidade da interação muito mais naturais.”

O Gemini Live, que só será lançado ainda este ano, será capaz de responder a perguntas sobre coisas que estão (ou recentemente) visíveis na câmera de um smartphone, como em que bairro o usuário está ou o nome de uma peça quebrada da bicicleta. Ou o usuário pode apontar ao sistema um trecho de código de computador e o Live explicará pelo que ele é responsável. E quando questionado sobre onde podem estar os óculos do usuário, o Gemini Live dirá onde ele os viu pela última vez. Será muito mais fácil encontrar um controle remoto de TV perdido!

O Live também poderá se tornar uma espécie de mentor virtual, ajudando os usuários a ensaiar um discurso para um evento, debater ideias e assim por diante. Live pode sugerir quais habilidades enfatizar em uma próxima entrevista ou estágio, ou dar conselhos sobre como falar em público.

A capacidade do Gemini Live de “lembrar” o que aconteceu recentemente é possível graças à arquitetura do modelo que o fundamenta, o Gemini 1.5 Pro, bem como, em menor grau, outros modelos generativos “específicos”. O Gemini 1.5 Pro possui uma janela de contexto muito ampla, o que significa que ele pode aceitar e processar uma grande quantidade de dados – cerca de uma hora de vídeo – antes de preparar uma resposta. O Google notou que o Gemini Live vai relembrar tudo o que aconteceu nas últimas horas.

Gemini Live é uma reminiscência da IA generativa encontrada nos óculos Meta✴, que podem visualizar imagens capturadas por uma câmera de forma semelhante e interpretá-las quase em tempo real. A julgar pelos vídeos de demonstração que o Google mostrou durante a apresentação, o Live também é muito semelhante ao ChatGPT recentemente atualizado da OpenAI.

A principal diferença entre o novo ChatGPT e o Gemini Live é que a solução do Google não será gratuita. Após o lançamento, o Live será exclusivo do Gemini Advanced, uma versão mais sofisticada do Gemini disponível para assinantes do plano Google One AI Premium de US$ 20 por mês.

Talvez em homenagem aos óculos Meta✴, um dos vídeos de demonstração do Google mostrou uma pessoa usando óculos AR equipados com um aplicativo semelhante ao Gemini Live. No entanto, o Google, querendo evitar outro fracasso no campo dos óculos inteligentes, recusou-se a dizer se este ou um produto semelhante com IA generativa aparecerá no mercado num futuro próximo.

O Google apresentou o Gemini Live – um assistente de IA com memória, fala natural e visão computacional

Byavalanche

By avalanche

Veja Mais

A Yandex humanizou a IA Alice: ela se lembra dos usuários e se adapta ao estilo de comunicação deles.

A Meta vai transferir até 90% da moderação do Facebook, Instagram e Threads para IA.

A Adobe adiciona assistentes de IA ao Photoshop e ao Premiere.

Deixe um comentário Cancelar resposta