Categorias: Mercado de tecnologia e TI. notíciaProgramas

O Google apresentou o Gemini Live – um assistente de IA com memória, fala natural e visão computacional

Anunciado no Google I/O 2024 na terça-feira, um novo recurso para o chatbot AI da Gemini foi anunciado: Gemini Live, que permite aos usuários ter conversas de voz “aprofundadas” com Gemini em seus smartphones. Os usuários podem interromper o Gemini durante suas conversas para fazer perguntas esclarecedoras, e o chatbot se adaptará à fala do usuário em tempo real. Além disso, o Gemini pode ver e reagir ao entorno do usuário por meio de fotos ou vídeos capturados pelas câmeras do smartphone.

Fonte da imagem: Google

Gemini Live é, de certa forma, uma combinação da plataforma de visão computacional Google Lens e do assistente virtual Google Assistant, e sua evolução posterior. À primeira vista, o Gemini Live não parece uma atualização dramática em relação às tecnologias existentes. Mas o Google diz que o sistema usa novas técnicas generativas de IA para fornecer análises de imagens superiores e menos propensas a erros, e combina essas técnicas com um mecanismo de fala aprimorado para um diálogo passo a passo mais consistente, emocionalmente expressivo e realista.

A inovação técnica por trás do Gemini Live decorre em parte do Projeto Astra, a nova iniciativa da DeepMind para construir aplicativos e “agentes” alimentados por IA que suportam a “compreensão” em tempo real de uma variedade de fontes de dados – texto, áudio e imagens. “Sempre quisemos criar um agente universal que fosse útil na vida cotidiana”, disse Demis Hassabis, CEO da DeepMind, no briefing. “Imagine agentes que podem ver e ouvir o que estamos fazendo, entender melhor o contexto em que estamos e responder rapidamente nas conversas, tornando o ritmo e a qualidade da interação muito mais naturais.”

O Gemini Live, que só será lançado ainda este ano, será capaz de responder a perguntas sobre coisas que estão (ou recentemente) visíveis na câmera de um smartphone, como em que bairro o usuário está ou o nome de uma peça quebrada da bicicleta. Ou o usuário pode apontar ao sistema um trecho de código de computador e o Live explicará pelo que ele é responsável. E quando questionado sobre onde podem estar os óculos do usuário, o Gemini Live dirá onde ele os viu pela última vez. Será muito mais fácil encontrar um controle remoto de TV perdido!

O Live também poderá se tornar uma espécie de mentor virtual, ajudando os usuários a ensaiar um discurso para um evento, debater ideias e assim por diante. Live pode sugerir quais habilidades enfatizar em uma próxima entrevista ou estágio, ou dar conselhos sobre como falar em público.

A capacidade do Gemini Live de “lembrar” o que aconteceu recentemente é possível graças à arquitetura do modelo que o fundamenta, o Gemini 1.5 Pro, bem como, em menor grau, outros modelos generativos “específicos”. O Gemini 1.5 Pro possui uma janela de contexto muito ampla, o que significa que ele pode aceitar e processar uma grande quantidade de dados – cerca de uma hora de vídeo – antes de preparar uma resposta. O Google notou que o Gemini Live vai relembrar tudo o que aconteceu nas últimas horas.

Gemini Live é uma reminiscência da IA generativa encontrada nos óculos Meta✴, que podem visualizar imagens capturadas por uma câmera de forma semelhante e interpretá-las quase em tempo real. A julgar pelos vídeos de demonstração que o Google mostrou durante a apresentação, o Live também é muito semelhante ao ChatGPT recentemente atualizado da OpenAI.

A principal diferença entre o novo ChatGPT e o Gemini Live é que a solução do Google não será gratuita. Após o lançamento, o Live será exclusivo do Gemini Advanced, uma versão mais sofisticada do Gemini disponível para assinantes do plano Google One AI Premium de US$ 20 por mês.

Talvez em homenagem aos óculos Meta✴, um dos vídeos de demonstração do Google mostrou uma pessoa usando óculos AR equipados com um aplicativo semelhante ao Gemini Live. No entanto, o Google, querendo evitar outro fracasso no campo dos óculos inteligentes, recusou-se a dizer se este ou um produto semelhante com IA generativa aparecerá no mercado num futuro próximo.

avalanche

Próximo O Google apresentou o processador AI de servidor mais poderoso, Trillium - quase cinco vezes mais rápido que seu antecessor »

Anterior « O Google anunciou seu gerador de imagens de IA mais poderoso, o Imagen 3.

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Sistemas operacionais

O Windows 11 está apresentando falhas novamente, e alguns usuários estão enfrentando o desaparecimento da área de trabalho.

Foi descoberto um bug no Windows 11 que está causando mau funcionamento de elementos importantes…

1 hora atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A Nvidia investirá apenas US$ 20 bilhões na OpenAI, em vez dos US$ 100 bilhões prometidos.

A cifra de US$ 100 bilhões discutida no contexto do acordo de investimento entre a…

2 horas atrás

Notícias da rede

A Europa acelerou sua rejeição aos serviços digitais e softwares americanos.

Em toda a Europa, governos e instituições estão buscando reduzir o uso de serviços digitais…

2 horas atrás

Processadores

Lisa Su prometeu um crescimento explosivo da receita: servidores e IA trarão dezenas de bilhões para a AMD.

Uma análise mais aprofundada das declarações da CEO da AMD, Lisa Su, no evento trimestral,…

3 horas atrás

Jogos

A Take-Two está implementando ativamente IA generativa em seus fluxos de trabalho, mas não em GTA VI – é um jogo feito à mão.

Strauss Zelnick, CEO da Take-Two Interactive, falou com o GamesIndustry.biz sobre a integração da IA…