No final de 2025, o arsenal de ferramentas de geração de imagens a partir de texto (T2I) (vamos nos limitar a modelos especializados desse tipo, já que vários modelos T2V, originalmente projetados para criação de vídeo, também são capazes de produzir imagens estáticas decentes) expandiu-se enormemente. Além dos já consagrados e conhecidos DALL·E 3, Midjourney v7 e GPT-4o, que continuaram a evoluir, o Google Imagen 4, o Nano Banana (também conhecido como Gemini 2.5 Flash Image), o Seedream 4.0 e vários outros tornaram-se disponíveis para aqueles dispostos a aceitar as limitações dos serviços online — desde filtros de conteúdo de entrada e saída, por vezes arbitrários, até a necessidade de pagar por cada imagem recuperada da nuvem. Mas os fãs de aplicativos locais de desenho com IA também puderam experimentar diversos novos produtos: os chineses Qwen-Image e Hunyuan Image 3.0, e o tão aguardado FLUX.2 da Black Forest Labs, da Alemanha (fundada, vale lembrar, em 2024 por ex-alunos da Stability AI — que, por sua vez, é responsável pela família de modelos T2I Stable Diffusion).

⇡#VocêNãoVaiExplodir?

E tudo estaria bem se não fosse pelo tamanho. Por exemplo, o Nano Banana, projetado para rodar exclusivamente em servidores na nuvem e baseado na arquitetura Multimodal Diffusion Transformer (MMDiT), é uma rede neural densa com 80 bilhões de parâmetros, dos quais cerca de 13 bilhões estão em uso a qualquer momento. O Seedream 4.0 baseado em nuvem (seus criadores na ByteDance simplesmente não querem disponibilizar seus pesos publicamente — nunca se sabe que tipo de usuários não supervisionados podem começar a gerar!) tem 12 bilhões de parâmetros, enquanto o FLUX local também tem 12 bilhões.2 [dev] -32 bilhões; o núcleo da Imagem Hunyuan 3.0 é formado por um conjunto de especialistas que utilizamtransfusão (Mistura de Especialistas com o método de Transfusão), que permite selecionar e ativar cerca de 13 bilhões de parâmetros dentre os 80 bilhões disponíveis em princípio em cada caso específico.

Todas as imagens mostradas foram geradas por diferentes modelos usando o mesmo prompt curto (veja abaixo): fileira superior, da esquerda para a direita: ZIT, GPT-image-1, FLUX.2 Pro; fileira inferior: Seedream 4.0, Nano Banana Pro, FLUX.1 Pro 1.1. O último modelo, que pertence à geração anterior (usa CLIP e T5 para conversão direta do prompt em tokens), chama a atenção imediatamente ao lidar com caracteres chineses.

Mas, embora o número de parâmetros e as características arquitetônicas de um modelo específico não sejam particularmente importantes para os defensores da geração online, aqueles que desejam que a IA desenhe imagens exclusivamente em nível local ficaram francamente decepcionados com a tendência emergente. Quanto melhor cada novo modelo lidava com a “compreensão” do prompt de texto e sua conversão em uma imagem gráfica, maiores eram seus requisitos médios de sistema. Além disso, vários novos modelos começaram a depender das soluções de hardware e software mais recentes (Nvidia CUDA 13.0, por exemplo), tornando seu desempenho em hardware formalmente arcaico, mas ainda funcional, como as placas GeForce GTX das séries 10 e 20, praticamente impossível. Resumindo, parecia — especialmente após o lançamento do FLUX.2 no final de novembro de 2025, quando os entusiastas ficaram chocados com o tamanho dos arquivos oferecidos para download (53 GB no total — e isso na notação “básica”, FP8 em vez de FP16) — que as coisas só iriam piorar. Mas então, de repente!

Os últimos dias de novembro foram marcados por debates acalorados em torno do FLUX.A discussão em comunidades temáticas do Reddit e em outras plataformas perdeu força quase que imediatamente: a atenção de todos se voltou para o que, à primeira vista, parecia modesto – apenas 6 bilhões de parâmetros, e mesmo em um único núcleo.O Z-Image Turbo (doravante denominado ZIT), um modelo para transformadores de difusão, foi desenvolvido no Tongyi Lab, parte do Grupo Alibaba. Mais precisamente, 6 bilhões é a característica do modelo base, simplesmente chamado Z-Image, que, no momento da redação deste Workshop, ainda não havia sido lançado. E esta é outra inovação ousada dos camaradas chineses: em vez de inicialmente oferecer à comunidade uma versão totalmente funcional, porém mais complexa, eles lançaram imediatamente uma versão Turbo simplificada (supervisionada) — com um CFG de 1, exigindo apenas nove etapas para gerar imagens fotorrealistas e estilizadas, e também fazendo um excelente trabalho na reprodução de texto sugerido em inglês e chinês. Como resultado, os entusiastas praticamente esqueceram o FLUX.2 e outros pesos-pesados ​​locais de T2I em poucos dias, especialmente porque a extensão Z-Image-Turbo-Fun-Controlnet-Union logo apareceu, adicionando recursos básicos de I2I (geração de imagem para imagem). Leve, rápido, perfeitamente responsivo, com qualidade de imagem muito boa e permitindo um treinamento LoRa simples e eficaz pelos usuários, o ZiV se tornou um verdadeiro presente de Natal antecipado para os entusiastas de pintura com IA: “Não me empolgava tanto com um jogo generativo desde o lançamento do Stable Diffusion 1.5!” — essa é outra das reações mais contidas ao novo produto. Vamos dar uma olhada mais de perto em como trabalhar com ele localmente.

Um diagrama de um preprint publicado por um grupo de pesquisadores do Laboratório Tongyi em 27 de novembro de 2025, explicando como eles aplicaram o conhecido algoritmo DMD (Distribution Matching Distillation) para produzir um modelo tão rápido, compacto e com desempenho excepcional (fonte: arxiv.org/pdf/2511.22677).

Não entraremos em detalhes sobre os méritos arquitetônicos do ZIT neste workshop — deixemos que as imagens resultantes falem por si. Além disso, graças à sua alta velocidade e aos modestos requisitos de sistema — em nossa plataforma de testes (Intel Core i7-2600K, 24 GB DDR3-1333, GeForce GTX 1070 8 GB), este modelo gera uma imagem de 1 MP (1024×1024 pixels) no ComfyUI em 240 a 330 segundos, ou 20 a 25 segundos por iteração — qualquer pessoa pode experimentar diferentes opções de entrada de texto, estilos, caracteres e assim por diante sem muita dificuldade. O importante é começar.

⇡#ObtenhaEInstale

Continuamos, como nos últimos “Workshops”, a usar o ambiente ComfyUI para geração local: o suporte da comunidade é mais do que adequado e quase todos os novos recursos já estão implementados. Sim, a interface “espaguete” pode parecer excessivamente complexa à primeira vista, mas na realidade — se você organizar os blocos com cuidado e evitar confundir visualmente as linhas que os conectam — entender a lógica de um ciclograma específico não é nada difícil.Não sabemos como implantar o ComfyUI — por razões práticas, a versão portátil com Python pré-configurado incluído, que não registra nenhuma chave ou caminho no registro do sistema, é preferível — em um PC com Windows.Já abordamos este assunto anteriormente. Apenas um lembrete: se você já possui este ambiente de trabalho instalado em seu computador, é recomendável atualizá-lo para garantir a compatibilidade com ZIT (disponível desde a versão 0.3.75). Primeiro, navegue até a pasta de atualização no diretório de instalação e execute o script update_comfyui.bat. Em seguida, após iniciar o servidor (executando o script run_nvidia_gpu.bat no diretório principal), clique em “Gerenciador” no menu da interface web (a extensão correspondente já deve estar instalada) e, na janela que se abrir, clique em “Atualizar tudo”. Após reiniciar o sistema, tudo estará pronto para uso.

Uma captura de tela de um diagrama de sequência de modelo do site da Comfy Anonimous, mas em vez da dica original, foi inserido (e funcionou) o diagrama que exploraremos a seguir. Observe o painel de controle antigo à direita e o botão “Gerenciador”, indicando que esta extensão — ideal para gerenciar outras extensões — já está instalada.

O trabalho em si, como de costume, começa com o download dos arquivos de modelo necessários. O site do autor do ambiente de trabalho que estamos usando, Comfy Anonimous, contém um diagrama de sequência de exemplo e todos os links necessários para os repositórios correspondentes no portal da Hugging Face. Você precisará baixar:

Devemos observar, no entanto, que o diagrama de sequência de modelo proposto pela renomada Comfy Anonimous não é, em nossa opinião, totalmente ideal. Primeiramente, existe um nó para uma dica negativa, que é irrelevante especificamente no caso do ZIV (talvez seja útil para o Z-Image Base, que ainda não foi lançado no momento da escrita deste texto; é difícil afirmar com certeza agora), visto que este modelo simplificado é executado com um valor fixo de orientação livre de classificador, CFG = 1. Isso, por sua vez, torna o uso de uma dica negativa completamente sem sentido, já que no ComfyUI, se o CFG for igual a um, ele é simplesmente ignorado. Isso é feito para acelerar ainda mais os modelos turbo, pois, nesse caso, a fórmula que especifica exatamente qual proporção de “ruído” remover da imagem original na próxima etapa (para obter a imagem declarada na dica de texto) inclui a parte negativa da dica com um multiplicador zero. Por esse motivo, em princípio, não há necessidade de desperdiçar recursos computacionais no pré-processamento deste modelo.partes.

O nó especial “ConditioningZeroOut” (o retângulo discreto vermelho-tijolo no centro) recebe um prompt de texto transformado pelo nó “CLIP Text Encode” como entrada e, como o nome sugere, produz uma saída zero. Este nó deve ser usado para “alimentar zero” a entrada “negativa” correspondente do nó “KSampler”.

Por esse motivo, em vez de um nó de entrada de texto para o prompt negativo, usamos um nó de zeragem, “ConditioningZeroOut”. Além disso, em vez do amostrador Euler canônico, usaremos o algoritmo RES (Restart), otimizado especificamente para ZIT. Em versões mais recentes do ComfyUI, ele está disponível no menu suspenso do nó de amostrador com o nome res_multistep. Isso não é estritamente necessário; além disso, embora o RES acelere o ciclograma, fornecendo resultados bastante decentes com um uso de memória de vídeo mais modesto, outros algoritmos — e, aliás, em combinação com outros agendadores, não apenas o simples usado aqui — podem produzir imagens visualmente mais atraentes. É verdade, isso tem um custo: um tempo de execução maior. Mas, neste caso, o próprio modelo é tão rápido que vale a pena experimentar.

Outro ponto: o nó “ModelSamplingAuraFlow”, que está desativado no ciclograma do modelo (ou seja, ele passa o fluxo de dados por si mesmo sem processá-lo; para ativá-lo, clique com o botão esquerdo para selecioná-lo e pressione Ctrl+B no teclado), na verdade funciona. Acontece que seu valor padrão — 3.0 — é usado quando ele está desativado.Este nó surgiu no ambiente de trabalho juntamente com o suporte para o extremamente ambicioso modelo T2I AuraFlow, que os entusiastas,Desapontados com o fracasso do Stable Diffusion 3, eles começaram a desenvolver o seu próprio, mas como esse trabalho é meticuloso e caro, o projeto permanece em versão beta. No entanto, o algoritmo de amostragem proposto por esses desenvolvedores provou ser tão bem-sucedido que o nó correspondente é frequentemente usado em ciclogramas do ComfyUI com modelos rápidos (“turbo”). Portanto, o valor “3.0” definido em “ModelSamplingAuraFlow” pode, e do ponto de vista experimental, deve, ser alterado; ele afeta o equilíbrio entre a fidelidade ao texto solicitado e a qualidade da imagem final, servindo como uma espécie de substituto para o parâmetro CFG em modelos turbo, para os quais esse parâmetro é rigidamente fixado em um. Em resumo, o nó mencionado pode ser ativado e deixado como está por enquanto, proporcionando espaço adicional para experimentação no futuro.

Uma captura de tela da aparência geral do diagrama de sequência original, com o qual faremos experiências mais tarde, no espaço de trabalho do ComfyUI. Observe novamente: esta utiliza a interface antiga, que, em nossa opinião, possui um layout mais lógico e intuitivo do que a nova. Por padrão, a versão mais recente do ComfyUI será instalada com a nova interface, muito mais minimalista. Para desativá-la e retornar à anterior, acesse o menu principal clicando no ícone de engrenagem (“Configurações”) e, na primeira janela que se abrir, desative a opção “Usar novo menu”.

⇡#Homem e Robô

Entre as vantagens do ZIT, tanto os desenvolvedores quanto seus inúmeros usuários destacam seu bom fotorrealismo (especialmente na renderização da textura da pele humana — uma qualidade com a qual muitos modelos, mesmo os mais complexos, ainda têm dificuldades), a reprodução adequada de textos em inglês e chinês e a resposta confiável aos comandos do operador. Vamos testar todas essas afirmações de uma só vez, pedindo ao sistema, iterando por meio de pistas aleatórias, para desenhar o seguinte:

Foto realista, close-up de uma modelo latina encostando a cabeça em um androide de plástico futurista, olhando um para o outro com admiração, luz solar filtrada em seus rostos, galhos de pinheiro exuberantes ao fundo, pele natural, melancólica e macia, um pouco de granulação de filme, sobreposição de texto azul-petróleo brilhante em uma fonte serifada grossa com contorno branco em negrito: “Turbo Feelings” na parte superior, “Turbo Feelings” na parte inferior.

O resultado da execução da dica fornecida com a semente 47447417949230: à esquerda – com o algoritmo de amostragem Euler, à direita – com RES.

Vale ressaltar que existem pequenas falhas óbvias na renderização: às vezes as testas dos personagens não se encontram perfeitamente, às vezes o contorno branco ao redor das letras não é visível, às vezes a fonte é sem serifa, mesmo que a opção serifada esteja claramente especificada. Mas todo o resto é muito bom: o próprio androide, os galhos de pinheiro, o jogo de luz e sombra; até mesmo os traços latino-americanos da garota são marcantes – ao contrário de imagens desenhadas usando a mesma dica, como FLUX.2 Pro ou Nano Banana Pro. E o balanço de branco padrão é perfeito – ao contrário de alguns modelos online que amarelam descaradamente.

Isso significa que o ZIV passou no primeiro teste com sucesso e que podemos experimentar com segurança o parâmetro ModelSamplingAuraFlow, algoritmos de amostragem e agendadores? Não exatamente: o leitor atento provavelmente notou logo de início o tamanho de arquivo excepcionalmente grande do modelo de transcodificação de texto para token, qwen_3_4b.safetensors. Este claramente não é o CLIP e T5 relativamente simples nos quais o Stable Diffusion 3 e o FLUX.1 se baseavam. Aqui, o processamento da entrada de texto é tratado por um modelo de linguagem pequeno (multimodal!) completo, o Qwen3-4b — o mesmo usado no treinamento original do Z-Image. Nesse caso, o MLM atua como um transformador de alto nível — e, aliás, o novo FLUX.2 também se baseia em um transcodificador de IA robusto, o Mistral Small 3.2, em sua versão com 24 bilhões de parâmetros.Assim, precisamente porque o ZIT é construído com Transformadores de Difusão de Fluxo Único (S3-DiT), ele processa texto e imagens visuais simultaneamente. Isso significa que ele não depende da captura de dados de outros elementos.A partir de estímulos de palavras e conceitos “familiares” a ele da fase de treinamento (cadeias de tokens, mais precisamente), e de forma instantânea, interpreta corretamente a semântica das frases e estabelece relações adequadas entre os objetos no quadro extraído do espaço latente.

Inteligências artificiais poderosas, praticamente qualquer uma moderna baseada em nuvem, ajudam bastante no aprimoramento das sugestões: você pode pedir ao ChatGPT, Grok, Mistral e outros para expandir e complementar a frase sugerida, ou pode recorrer a recursos online especializados (captura de tela de ImagePrompt.org).

Isso tem duas consequências práticas:

Duas versões do processamento de prompts ZIT com a mesma semente: à esquerda, com um texto-fonte curto; à direita, com um modelo de IA de terceiros distribuído criativamente; veja como a imagem ganha vida!

⇡#Mais Imagens Incríveis

Se você usar ferramentas online de enriquecimento de prompts (usamos o ImagePrompt.org, seção “Texto para Prompt”), o texto de 63 palavras sobre uma garota e um androide, fornecido anteriormente, produziria algo como isto (obviamente, como também usa um modelo generativo autorregressivo, o resultado será ligeiramente diferente a cada execução):

Uma fotografia realista em close-up captura um momento de intensa conexão entre uma jovem modelo latina de vinte e poucos anos e um androide elegante e futurista. Suas cabeças se tocam suavemente, seus olhares se encontram em admiração mútua, suas peles macias captando a luz do sol filtrada pelas copas dos pinheiros verdejantes ao fundo. A modelo, com seus olhos escuros e expressivos, e o androide, com seu rosto de plástico polido, refletem a luz etérea, projetando sombras suaves. A pele da modelo brilha, enquanto a superfície do androide reflete uma luz suave e fria. A cena é banhada por uma atmosfera melancólica, com um toque de granulação de filme adicionando textura. Acima, uma sobreposição de texto em um tom vibrante de azul-petróleo, em uma fonte serifada robusta com um contorno branco marcante, exibe as palavras “涡轮感受” na parte superior e “TURBO FEELINGS” na parte inferior. A paleta de cores da imagem equilibra tons de verde naturais com toques de azul-petróleo frio. A composição concentra-se na emoção entre os dois sujeitos, destacando a mistura do orgânico e do sintético, um momento de compreensão íntima.O jogo claramente vale a pena: o tempo necessário para processar uma dica mais longa, caso aumente, é praticamente imperceptível, mas o resultado é visivelmente mais agradável e, paradoxalmente, geralmente mais consistente com a dica original (curta).

Para conectar a saída do nó “Flux Resolution Calc” às entradas de largura e altura do nó “EmptySD3LatentImage”, basta arrastar uma linha do ponto de saída até o campo de entrada desejado — ela será convertida automaticamente em um ponto de entrada. Conveniente!

Agora que dominamos a técnica de enriquecer as dicas de ferramentas, vamos adicionar alguma variabilidade às gerações de ZIT: a velocidade de execução desses modelos é tão alta que é tentador executá-los no modo de geração infinita, buscando imagens particularmente boas (mesmo que elas sejam bastante boas em média). E, para começar, vamos automatizar a seleção da resolução da imagem: o nó “EmptySD3LatentImage” permite apenas a entrada manual de largura e altura em pixels — existe uma maneira mais conveniente?

Sim, existe! O complemento ControlAltAI, que mencionamos no workshop anterior, inclui um nó “Flux Resolution Calc” com um prático menu suspenso para proporções de imagem (1:1, 2:3, 16:9, etc.), bem como sua resolução total em megapixels (de 0,1 a 2,5). Se este complemento ainda não estiver em seu espaço de trabalho, basta instalá-lo através do “Gerenciador” — encontre-o pelo nome e clique em “Instalar”. Como de costume, após reiniciar o servidor e recarregar a página da web em seu navegador, tudo estará pronto para uso.

Para começar, abra o nó “KSampler (Advanced)” ao lado do nó “KSampler” em funcionamento e transfira os valores especificados no primeiro. Certifique-se de definir o parâmetro “end at step” para “2” e selecionar “enable” na parte inferior para que a imagem não gerada (2 etapas de 9) seja transferida para o próximo nó com ruído residual.

O próximo passo é substituir o nó “KSampler” por dois nós “KSampler (Advanced)”. Como já mencionamos, a variabilidade das imagens produzidas pelo ZIT é limitada justamente pela identificação precisa das relações semânticas na dica de ferramenta: quando tudo é claramente definido até os mínimos detalhes, há pouco espaço para exploração criativa (“o artista sonhador em uma armadilha lógica” é exatamente o que isso significa). No entanto, uma estratégia inteligente, proposta inicialmente, ao que sabemos, por um usuário do Reddit chamado SnareEmu, é possível: das nove etapas de geração, a primeira ou as duas primeiras devem ser completamente cegas, com zero entrada positiva (e não apenas negativa). Somente nas sete ou oito etapas restantes, com base no que parece ser uma amostra completamente aleatória extraída do espaço latente, o modelo tentará completar uma imagem semanticamente coerente da melhor maneira possível.

O segundo nó “KSampler (Avançado)” completa o que o primeiro começou, e sua saída é enviada para o nó padrão “Decodificação VAE” para converter a imagem latente finalizada em uma imagem de pixels. Aqui, o parâmetro “iniciar na etapa” deve ser definido como “2” e “adicionar ruído” (o primeiro parâmetro) deve ser desativado.

É aqui que o nó “KSampler (Avançado)” se torna útil. Ele pode interromper a geração em uma etapa específica e passar a imagem latente — não a imagem finalizada! — com ruído residual, para que o próximo nó possa usá-la como achar melhor. Assim, o primeiro nó “KSampler (Avançado)” substituirá o “KSampler” anterior, iniciará a geração com os mesmos parâmetros e, na segunda etapa, passará a imagem não processada para o segundo nó, que então finalizará o trabalho. Em seguida, você precisa reconectar tudo corretamente: a saída “MODEL” do nó “ModelSamplingAuraFlow” agora vai para as entradas de ambos os “KSampler (Advanced)”, a saída “CONDITIONING” do nó com uma dica positiva vai para a entrada correspondente do segundo “KSampler (Advanced)”, e de “ConditioningZeroOut” os fluxos de dados “zero” vão para três entradas: para as duas entradas apropriadas do primeiro “KSampler (Advanced)” e para a entrada “negativa” do segundo.

Uma visão geral das conexões no nó de geração de imagens para um diagrama de sequência complexo. Observação: o parâmetro “vae” é enviado ao nó “Decodificação VAE” a partir da saída do nó “Carregar VAE” que carrega este modelo (ele está logo à esquerda da imagem) através de dois nós de serviço de mini-redirecionamento, “Redirecionar”. Isso é feito unicamente para maior clareza: dessa forma, as linhas de conexão não se cruzam, tornando o diagrama de sequência mais fácil de ler.

Em seguida, seria lógico definir os campos “controle após geração” em ambos os nós “KSampler (Avançado)” como “aleatório” e executar a geração em um loop infinito, aproveitando a variedade significativamente expandida. Aliás, o próprio SnareEmu recomenda aumentar o valor de “ModelSamplingAuraFlow” do original 3 em sua postagem — isso ajuda a aprimorar ainda mais a variabilidade; 6 ou 7 são considerados valores razoáveis ​​na comunidade de entusiastas do ZIT. E, como de costume, as imagens geradas neste “Workshop” — arquivos PNG com diagramas de sequência incorporados que abrem no espaço de trabalho ComfyUI — podem ser baixadas da nuvem.

Diversidade! Agora com uma proporção de 2:3; outros parâmetros, incluindo a dica comum, permanecem os mesmos — imagens adjacentes diferem apenas em suas sementes.

Vale ressaltar, aliás, que a diversidade, adicionada diretamente do abismo do espaço latente, nem sempre é algo bom. Se você visualizar (usando os nós “Decodificação VAE” e “Visualizar Imagem”) a dispersão de pontos multicoloridos que a imagem representa após duas etapas de geração, frequentemente verá artefatos periódicos — geralmente grupos horizontais, e às vezes verticais, de pixels de cores semelhantes, que, na etapa seguinte, ao longo das etapas restantes, formam estruturas não especificadas pela dica original. Isso provavelmente é uma característica do ZIT como um modelo destilado. No entanto, mesmo essas estruturas podem se revelar esteticamente agradáveis ​​— pelo menos, um experimentador entusiasta certamente não se entediará com esta versão do diagrama de sequência de trabalho do Z-Image Turbo.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *