O Google demonstrou um recurso experimental de sua rede neural Gemini que permite que seu assistente de IA responda a perguntas sobre o que está acontecendo do lado de fora da janela do carro. Isso é possível concedendo ao serviço acesso temporário à câmera frontal do veículo. Sameer Samat, presidente da divisão Android, demonstrou o novo recurso juntamente com Logan Kilpatrick, chefe do Google AI Studio.

Fonte da imagem: androidauthority.com

A demonstração deste recurso foi realizada em um Volvo EX60, que, como Samat observou, ainda não está à venda. O carro utiliza a plataforma Gemini do Google e, aparentemente, é o único veículo atualmente compatível com o novo recurso. Durante a demonstração, Samat não mencionou planos para expandir a disponibilidade dessa inovação.

O conceito será familiar para quem já utilizou o modo de câmera Gemini Live em smartphones Android. A diferença é que, neste caso, um smartphone não é necessário, e a câmera frontal se torna os olhos de um assistente de IA. “Queríamos ver o que aconteceria se o Gemini pudesse ver o mundo enquanto você dirige”, explicou Samat durante a demonstração.

Durante a discussão, ele também abordou a questão da privacidade dos dados, que também é importante. Segundo Samat, o sistema não analisa o que acontece durante toda a viagem. O assistente de IA só tem acesso ao fluxo de vídeo quando o usuário ativa explicitamente o Gemini com um comando de voz e faz a pergunta apropriada. “Então a câmera transmite o fluxo de vídeo para o Gemini, ele responde à pergunta e, em seguida, perde a visão novamente”, acrescentou Samat.

Durante a demonstração, observou-se um atraso perceptível na conexão do Gemini com a câmera. Ao contrário do Gemini Live em um smartphone, o sistema de infoentretenimento do carro não transmite o que a câmera vê enquanto o Gemini está em funcionamento. O usuário só pode ouvir as respostas de voz do assistente de IA, que são reproduzidas após o sistema processar o fluxo de vídeo.

Apesar dos atrasos significativos, dentro da estrutura…Durante uma demonstração, o Gemini exibiu uma impressionante capacidade de compreensão visual. Samat pediu ao assistente de IA que identificasse pontos de referência visíveis através do para-brisa de um carro ao redor do campus do Google em Mountain View. O algoritmo identificou corretamente vários pontos de referência locais.

Essa demonstração indica que o Google está explorando maneiras de expandir as capacidades multimodais do Gemini para além dos smartphones e planeja integrar novos recursos aos sistemas de infoentretenimento dos carros. Em vez de depender exclusivamente de dados de navegação, o assistente de IA poderá responder a perguntas com base no que o motorista está vendo em um determinado momento. Samat não revelou planos para expandir a disponibilidade desse recurso, dizendo apenas que o Google está considerando várias opções.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *