Anunciado no Google I/O 2024 na terça-feira, um novo recurso para o chatbot AI da Gemini foi anunciado: Gemini Live, que permite aos usuários ter conversas de voz “aprofundadas” com Gemini em seus smartphones. Os usuários podem interromper o Gemini durante suas conversas para fazer perguntas esclarecedoras, e o chatbot se adaptará à fala do usuário em tempo real. Além disso, o Gemini pode ver e reagir ao entorno do usuário por meio de fotos ou vídeos capturados pelas câmeras do smartphone.
Gemini Live é, de certa forma, uma combinação da plataforma de visão computacional Google Lens e do assistente virtual Google Assistant, e sua evolução posterior. À primeira vista, o Gemini Live não parece uma atualização dramática em relação às tecnologias existentes. Mas o Google diz que o sistema usa novas técnicas generativas de IA para fornecer análises de imagens superiores e menos propensas a erros, e combina essas técnicas com um mecanismo de fala aprimorado para um diálogo passo a passo mais consistente, emocionalmente expressivo e realista.
A inovação técnica por trás do Gemini Live decorre em parte do Projeto Astra, a nova iniciativa da DeepMind para construir aplicativos e “agentes” alimentados por IA que suportam a “compreensão” em tempo real de uma variedade de fontes de dados – texto, áudio e imagens. “Sempre quisemos criar um agente universal que fosse útil na vida cotidiana”, disse Demis Hassabis, CEO da DeepMind, no briefing. “Imagine agentes que podem ver e ouvir o que estamos fazendo, entender melhor o contexto em que estamos e responder rapidamente nas conversas, tornando o ritmo e a qualidade da interação muito mais naturais.”
O Gemini Live, que só será lançado ainda este ano, será capaz de responder a perguntas sobre coisas que estão (ou recentemente) visíveis na câmera de um smartphone, como em que bairro o usuário está ou o nome de uma peça quebrada da bicicleta. Ou o usuário pode apontar ao sistema um trecho de código de computador e o Live explicará pelo que ele é responsável. E quando questionado sobre onde podem estar os óculos do usuário, o Gemini Live dirá onde ele os viu pela última vez. Será muito mais fácil encontrar um controle remoto de TV perdido!
O Live também poderá se tornar uma espécie de mentor virtual, ajudando os usuários a ensaiar um discurso para um evento, debater ideias e assim por diante. Live pode sugerir quais habilidades enfatizar em uma próxima entrevista ou estágio, ou dar conselhos sobre como falar em público.
A capacidade do Gemini Live de “lembrar” o que aconteceu recentemente é possível graças à arquitetura do modelo que o fundamenta, o Gemini 1.5 Pro, bem como, em menor grau, outros modelos generativos “específicos”. O Gemini 1.5 Pro possui uma janela de contexto muito ampla, o que significa que ele pode aceitar e processar uma grande quantidade de dados – cerca de uma hora de vídeo – antes de preparar uma resposta. O Google notou que o Gemini Live vai relembrar tudo o que aconteceu nas últimas horas.
Gemini Live é uma reminiscência da IA generativa encontrada nos óculos Meta✴, que podem visualizar imagens capturadas por uma câmera de forma semelhante e interpretá-las quase em tempo real. A julgar pelos vídeos de demonstração que o Google mostrou durante a apresentação, o Live também é muito semelhante ao ChatGPT recentemente atualizado da OpenAI.
A principal diferença entre o novo ChatGPT e o Gemini Live é que a solução do Google não será gratuita. Após o lançamento, o Live será exclusivo do Gemini Advanced, uma versão mais sofisticada do Gemini disponível para assinantes do plano Google One AI Premium de US$ 20 por mês.
Talvez em homenagem aos óculos Meta✴, um dos vídeos de demonstração do Google mostrou uma pessoa usando óculos AR equipados com um aplicativo semelhante ao Gemini Live. No entanto, o Google, querendo evitar outro fracasso no campo dos óculos inteligentes, recusou-se a dizer se este ou um produto semelhante com IA generativa aparecerá no mercado num futuro próximo.
Jogado no pc Indiana Jones e o Grande Círculo foi anunciado há vários anos, mas…
A jovem empresa americana Terradot acaba de receber uma parcela de US$ 27 milhões para…
A inteligência artificial ou aprendizado de máquina tornou-se um tema central em muitas notícias este…
A holding britânica Arm anunciou a intenção de buscar um novo julgamento da ação contra…
A OpenAI está atrasada no desenvolvimento da versão mais recente de seu principal modelo de…
A empresa japonesa OKI Circuit Technology, que produz placas de circuito impresso há mais de…