No mês passado, o Google lançou o Modo IA, um chatbot de pesquisa com tecnologia de IA integrado ao aplicativo proprietário da empresa. Agora o Modo IA aprendeu a “ver” imagens e responder perguntas sobre elas. Esta inovação já está disponível para “milhões de novos usuários”.
Fonte da imagem: BoliviaInteligente/Unsplash
A atualização do chatbot de pesquisa combina uma versão personalizada do grande modelo de linguagem do Gemini com a tecnologia de reconhecimento de imagem do Lens. Com isso, os usuários podem tirar uma captura de tela de algo ou carregar uma imagem para obter uma “resposta rica, abrangente e vinculada” sobre o que o arquivo original descreve. A partir de hoje, o novo recurso está disponível no aplicativo do Google para dispositivos Android e iOS.
Um porta-voz do Google observou que o Modo IA é baseado nos muitos anos de trabalho da empresa em pesquisa visual, o que lhe permitiu dar um passo à frente. Ele também acrescentou que os recursos multimodais do Gemini permitem que o chatbot entenda toda a cena na imagem, incluindo o contexto de como os objetos se relacionam entre si, suas formas, cores, localizações, etc.
Segundo o Google, o algoritmo atualizado usa uma “técnica de leque”, na qual a rede neural envia múltiplas solicitações à imagem e aos objetos capturados nela. O resultado são respostas “incrivelmente diferenciadas e contextualmente relevantes”. No mês passado, o Google lançou um bot do Modo IA exclusivamente para assinantes do Google One AI Premium. Agora esse recurso está disponível para mais usuários nos EUA.