O Google atualizou seu chatbot Gemini com um recurso de processamento de imagens com inteligência artificial que permite aos usuários controlar o processo de edição de fotos com precisão. O gigante das buscas pretende igualar os recursos de processamento de imagens do OpenAI e atrair o público do ChatGPT.
Fonte da imagem: blog.google
A atualização do Gemini 2.5 Flash Image está disponível para todos os usuários do aplicativo Gemini, bem como para desenvolvedores nas plataformas Gemini API, Google AI Studio e Vertex AI. O novo editor processa imagens com alta precisão com base em consultas simples em linguagem natural. Ele preserva a consistência de rostos, animais e outros detalhes, o que nem sempre é possível com ferramentas concorrentes: por exemplo, pedir ao ChatGPT ou ao xAI Grok para mudar a cor da camisa de alguém em uma foto pode resultar em um rosto distorcido ou uma mudança no fundo. O Google Gemini 2.5 Flash Image já conquistou a aprovação dos usuários – a empresa o disponibilizou na plataforma LMArena sob o nome “nano-banana”.
Esquerda – foto original, direita – editada com nano-banana
Este não é um modelo de IA separado, mas sim uma funcionalidade integrada ao Gemini 2.5 Flash AI existente. “Melhoramos significativamente a qualidade do processamento de imagens e a capacidade do modelo de seguir instruções. Esta atualização melhora significativamente a experiência de edição, tornando-a mais orgânica e a saída do modelo utilizável para qualquer finalidade”, disse Nicole Brichtova, chefe de modelos visuais generativos do Google DeepMind, ao TechCrunch.
O modelo possui profundo conhecimento do mundo e permite que múltiplas amostras sejam especificadas em uma consulta — por exemplo, uma imagem de um sofá, uma sala de estar e uma paleta de cores podem ser combinadas em uma única resposta. “Queremos dar aos usuários liberdade criativa para que possam obter o que desejam dos modelos. Mas não se parece com nada mais”, acrescentou Brychtova. O Google tomou algumas medidas para combater o aumento de deepfakes, adicionando marcas d’água visuais e identificadores nos metadados de imagens geradas por IA.
O Open Compute Project (OCP) lançou a especificação de rack de servidor Open Rack Wide…
Representantes da OpenAI estão convencidos de que as ações judiciais de Elon Musk visam fortalecer…
A Supermicro divulgou seus resultados do terceiro trimestre fiscal de 2026, encerrado em 31 de…
Implementado inicialmente sob pressão das autoridades americanas, o projeto para estabelecer uma fábrica de chips…
Os desenvolvedores do estúdio britânico Playground Games, pertencente ao Xbox, responderam a um vazamento do…
A Microsoft é a investidora estratégica mais antiga da OpenAI, tendo investido pelo menos US$…