O Google atualizou seu chatbot Gemini com um recurso de processamento de imagens com inteligência artificial que permite aos usuários controlar o processo de edição de fotos com precisão. O gigante das buscas pretende igualar os recursos de processamento de imagens do OpenAI e atrair o público do ChatGPT.
Fonte da imagem: blog.google
A atualização do Gemini 2.5 Flash Image está disponível para todos os usuários do aplicativo Gemini, bem como para desenvolvedores nas plataformas Gemini API, Google AI Studio e Vertex AI. O novo editor processa imagens com alta precisão com base em consultas simples em linguagem natural. Ele preserva a consistência de rostos, animais e outros detalhes, o que nem sempre é possível com ferramentas concorrentes: por exemplo, pedir ao ChatGPT ou ao xAI Grok para mudar a cor da camisa de alguém em uma foto pode resultar em um rosto distorcido ou uma mudança no fundo. O Google Gemini 2.5 Flash Image já conquistou a aprovação dos usuários – a empresa o disponibilizou na plataforma LMArena sob o nome “nano-banana”.
Esquerda – foto original, direita – editada com nano-banana
Este não é um modelo de IA separado, mas sim uma funcionalidade integrada ao Gemini 2.5 Flash AI existente. “Melhoramos significativamente a qualidade do processamento de imagens e a capacidade do modelo de seguir instruções. Esta atualização melhora significativamente a experiência de edição, tornando-a mais orgânica e a saída do modelo utilizável para qualquer finalidade”, disse Nicole Brichtova, chefe de modelos visuais generativos do Google DeepMind, ao TechCrunch.
O modelo possui profundo conhecimento do mundo e permite que múltiplas amostras sejam especificadas em uma consulta — por exemplo, uma imagem de um sofá, uma sala de estar e uma paleta de cores podem ser combinadas em uma única resposta. “Queremos dar aos usuários liberdade criativa para que possam obter o que desejam dos modelos. Mas não se parece com nada mais”, acrescentou Brychtova. O Google tomou algumas medidas para combater o aumento de deepfakes, adicionando marcas d’água visuais e identificadores nos metadados de imagens geradas por IA.
O uso de scanners litográficos EUV de alta NA é mais amplamente relatado no contexto…
A memória HBM, que utiliza um layout multicamadas e conexões de alta velocidade, é utilizada…
Qualquer tipo de acionamento elétrico em carros modernos pode representar um certo perigo para uma…
O teaser do RPG de ação Cyberpunk 2077, publicado no dia anterior, acabou fazendo muito…
O bilionário americano Elon Musk afirmou que até 80% da receita futura da Tesla virá…
Os desenvolvedores do estúdio polonês Reikon Games (Ruiner), em conjunto com a editora Deep Silver,…