O Google demonstrou um recurso experimental de sua rede neural Gemini que permite que seu assistente de IA responda a perguntas sobre o que está acontecendo do lado de fora da janela do carro. Isso é possível concedendo ao serviço acesso temporário à câmera frontal do veículo. Sameer Samat, presidente da divisão Android, demonstrou o novo recurso juntamente com Logan Kilpatrick, chefe do Google AI Studio.
Fonte da imagem: androidauthority.com
A demonstração deste recurso foi realizada em um Volvo EX60, que, como Samat observou, ainda não está à venda. O carro utiliza a plataforma Gemini do Google e, aparentemente, é o único veículo atualmente compatível com o novo recurso. Durante a demonstração, Samat não mencionou planos para expandir a disponibilidade dessa inovação.
O conceito será familiar para quem já utilizou o modo de câmera Gemini Live em smartphones Android. A diferença é que, neste caso, um smartphone não é necessário, e a câmera frontal se torna os olhos de um assistente de IA. “Queríamos ver o que aconteceria se o Gemini pudesse ver o mundo enquanto você dirige”, explicou Samat durante a demonstração.
Durante a discussão, ele também abordou a questão da privacidade dos dados, que também é importante. Segundo Samat, o sistema não analisa o que acontece durante toda a viagem. O assistente de IA só tem acesso ao fluxo de vídeo quando o usuário ativa explicitamente o Gemini com um comando de voz e faz a pergunta apropriada. “Então a câmera transmite o fluxo de vídeo para o Gemini, ele responde à pergunta e, em seguida, perde a visão novamente”, acrescentou Samat.
Durante a demonstração, observou-se um atraso perceptível na conexão do Gemini com a câmera. Ao contrário do Gemini Live em um smartphone, o sistema de infoentretenimento do carro não transmite o que a câmera vê enquanto o Gemini está em funcionamento. O usuário só pode ouvir as respostas de voz do assistente de IA, que são reproduzidas após o sistema processar o fluxo de vídeo.
Apesar dos atrasos significativos, dentro da estrutura…Durante uma demonstração, o Gemini exibiu uma impressionante capacidade de compreensão visual. Samat pediu ao assistente de IA que identificasse pontos de referência visíveis através do para-brisa de um carro ao redor do campus do Google em Mountain View. O algoritmo identificou corretamente vários pontos de referência locais.
Essa demonstração indica que o Google está explorando maneiras de expandir as capacidades multimodais do Gemini para além dos smartphones e planeja integrar novos recursos aos sistemas de infoentretenimento dos carros. Em vez de depender exclusivamente de dados de navegação, o assistente de IA poderá responder a perguntas com base no que o motorista está vendo em um determinado momento. Samat não revelou planos para expandir a disponibilidade desse recurso, dizendo apenas que o Google está considerando várias opções.
Segundo fontes online, a Microsoft está se preparando para mais uma rodada de demissões. Desta…
Dois anos se passaram desde que a Samsung entrou no mercado de anéis inteligentes, e…
A percepção de que a inteligência artificial pode "fazer tudo", desenvolvida por empregadores em meio…
Cientistas da Universidade Tecnológica de Nanyang, em Singapura, em conjunto com colegas do Japão, desenvolveram…
A batalha pelo controle dos aplicativos de mensagens continua em Bruxelas: após seis meses de…
A empresa chinesa UBTech Robotics apresentou o U1, um robô humanoide para o consumidor projetado…