Os grandes modelos modernos de IA — aqueles que são baseados na nuvem e acessíveis aos usuários por meio de interfaces da web, aplicativos de smartphone ou APIs — são, em sua maioria, multimodais (A2A, qualquer coisa para qualquer coisa — que inclui o T2T usual, modo de texto para texto para bate-papo com bots e a conversão de um prompt verbal em uma imagem, T2I, texto para imagem e reconhecimento de imagem com uma descrição detalhada delas — I2T, imagem para texto e muito mais). Na entrada, eles aceitam solicitações de texto e imagens ou até mesmo vídeos e, em resposta, geralmente são capazes de fornecer não apenas texto, mas também uma imagem, um vídeo, uma frase dita por uma voz sintetizada ou uma melodia. Isso talvez se deva ao poder extremamente alto das redes neurais profundas que fundamentam tais modelos, cujo número de parâmetros nas entradas de neurônios artificiais já chega a trilhões (o GPT-4 tem 1,76 trilhão). É claro que, para garantir uma velocidade adequada de transmissão de sinal através dessas redes neurais, suas imagens digitais devem ser colocadas inteiramente em RAM ultrarrápida, o que, por sua vez, requer centenas e milhares de GB. É por isso que modelos de IA generativos que são realmente interessantes em termos de comunicação ao vivo não podem ser executados em um PC doméstico – o mesmo DeepSeek R1 na versão original (totalmente funcional) requer pelo menos 1543 GB de memória de vídeo.
Um exemplo de colaboração artística frutífera entre o operador de câmera e um PC local: à esquerda está a natureza morta original com queijo e mel do banco de fotos gratuito PXHere; no centro está seu análogo, criado pelo modelo FLUX.1 [dev] com base em um prompt de texto gerado por outro agente de IA especializado em reconhecimento de imagem, Florence2; à direita está o resultado do mascaramento manual do objeto central e do desenho de uma abelha de pelúcia em seu lugar usando o modelo FLUX.1 [preenchimento]
Claro, existem versões “comprimidas” (destiladas) de modelos grandes, e até mesmo especialmente “quantizados” (quando em vez de números de ponto flutuante de 32 ou 16 bits, os pesos nas entradas do perceptron são apresentados em uma forma mais compacta, com 8 ou 4 bits, e mesmo este não é o limite), de modo que alguns DeepSeek-R1-Distill-Qwen-7B com 7 bilhões de parâmetros ocuparão 4,5 GB de memória de vídeo, e DeepSeek-R1-Distill-Qwen-1.5B com um bilhão e meio de parâmetros ocuparão cerca de 1 GB. A destilação de modelos conduzida corretamente permite preservar as características distintivas do original em uma determinada área: assim, o mencionado DeepSeek-R1-Distill-Qwen-1.5B, que é uma versão “comprimida” do Qwen2.5-Math-1.5B (além disso, durante a compactação desta versão do Qwen, originalmente criada pelos desenvolvedores do Alibaba Group, as respostas geradas pelo DeepSeek R1 foram usadas – é por isso que o nome de ambos os modelos originais está presente no nome da versão destilada), treinado para resolver problemas matemáticos e lógicos, supera as versões totalmente funcionais do GPT-4o-0513 e Claude-3.5-Sonnet-1022 em uma série de testes relevantes. Ao mesmo tempo, o “destilado” pode ser executado em um PC local que atenda, por exemplo, às especificações do Copilot+ PC – mesmo na ausência de uma placa de vídeo discreta. Mas é claro que não se pode esperar verdadeira universalidade de agentes de IA tão compactos e especializados: Turing proíbe você de iniciar conversas com DeepSeek-R1-Distill-Qwen-1.5B sobre assuntos que não sejam matemática!
E, ainda assim, faz sentido lançar localmente até mesmo agentes de IA obviamente não universais — para resolver diversas tarefas aplicadas que, por uma razão ou outra, são irracionais ou simplesmente inconvenientes de serem executadas na nuvem. No âmbito deste “Workshop”, consideraremos uma dessas aplicações práticas de pequenos modelos generativos, nomeadamente, a sua possível assistência aos seus colegas (também, em essência, pequenos modelos de linguagem com uma área de aplicação inicialmente estreita – SLM), especializados na criação de imagens. Acontece que, ao envolver não uma IA, mas duas ou mais, mas com diferentes especializações, na tarefa de transformar um conceito artístico em uma imagem, é possível obter resultados mais extraordinários em um tempo relativamente curto – do que se você condicionar manualmente em algum editor gráfico (especialmente na ausência de habilidades e experiência adequadas) uma imagem que não é totalmente satisfatória para o operador, gerada pelo mesmo FLUX.1.
O processo de raciocínio e a saída da resposta final são demonstrados por um modelo compacto de IA da família Qwen 1.5B, otimizado para execução em um coprocessador neural (NPU em um sistema em um chip; nem mesmo uma GPU discreta!) em um PC Copilot+ com Windows Copilot Runtime (fonte: Microsoft)
⇡#Sob controle
Na série Tutoriais de Desenho de IA que publicamos há quase dois anos, mencionamos repetidamente o principal problema da geração de imagens de máquina com base em instruções de texto: a incerteza excessivamente alta dos resultados obtidos. Há incerteza em literalmente tudo: desde a qualidade da imagem como um todo (é justamente para neutralizar esse flagelo que as dicas de Difusão Estável geralmente são acompanhadas de ditados obrigatórios como “obra-prima, melhor qualidade, atmosfera elaborada”) até sua composição e o nível de execução de detalhes individuais (olhamos para as mãos humanas na imagem original SD 1.5, sem LoRA e inversões de texto, e choramos – e com elas, em geral, também, só que com um pouco menos de frequência). Sim, relativamente rápido a comunidade de entusiastas do desenho por IA desenvolveu ferramentas automatizadas para gerar imagens de acordo com um determinado modelo – OpenPose para ControlNet, por exemplo: com a ajuda delas, você pode pegar o trabalho de um artista vivo ou apenas uma foto da vida real – e fazer “aproximadamente o mesmo, mas com um toque de IA”. No entanto, reproduzir a imagem de outra pessoa diretamente ou com variações mínimas não é muito interessante por si só e, na prática, nem sempre é necessário. Com muito mais frequência — digamos, para ilustrar adequadamente outra postagem em uma rede social ou uma publicação em uma edição online, ou mesmo simplesmente criar um retrato do seu próprio personagem de fantasia para outro RPG de mesa — você precisa obter uma imagem da máquina com base em uma determinada amostra, e não uma cópia mais ou menos servil dela feita por IA.
Antes do modelo FLUX.1, com sua “compreensão” altamente desenvolvida (graças à sua dependência do submodelo de IA “explicativo” T5) da fala natural, a engenharia de prompts – ou seja, compor um prompt de texto que garantiria a geração de uma imagem com um alto grau de correspondência com a composição e qualidade pretendidas pelo operador – era quase semelhante à magia negra. Era necessário selecionar palavras-chave de uma maneira especial (específica para quase todos os pontos de verificação!), muitas vezes de forma totalmente intuitiva, e organizá-las na sequência correta. É exatamente por isso que a família de ferramentas ConrolNet foi recebida com tanto entusiasmo pela comunidade de entusiastas: elas forneceram um controle muito mais confiante sobre a geração, embora a qualidade da geração em si, tanto para SD 1.5 quanto para SDXL, nem sempre atendesse às expectativas do operador. Depois de receber uma imagem mais ou menos adequada, era necessário redesenhar repetidamente as partes obviamente malsucedidas usando o mesmo modelo de IA (o procedimento de pintura interna) ou editar manualmente a imagem no GIMP, Photoshop ou outro editor gráfico – se o operador tivesse as habilidades apropriadas, é claro.
Faz sentido usar um ciclograma combinado, no qual os nós para descrição de texto automatizada da imagem original (canto inferior esquerdo) e para converter a dica de IA recebida em uma imagem “baseada” no original (todo o resto) funcionam sequencialmente, em PCs rápidos – então não será tão ofensivo se o reconhecimento de imagem no próximo caso específico não for muito bem-sucedido
Agora que o FLUX.1 está disponível há mais de meio ano e adquiriu uma quantidade razoável de ferramentas de suporte na forma de vários modelos complementares do LoRA, a situação é muito mais simples. Algumas variantes do ControlNet para FLUX.1 também estão disponíveis – embora por enquanto em um intervalo menor do que para a família Stable Diffusion – mas se você criar novas imagens com base nas existentes, poderá ficar sem elas. Em termos gerais, como o novo modelo é notavelmente diferente dos anteriores em sua meticulosidade aumentada em termos de seguir a dica, agora o operador só precisa descrever a imagem desejada em detalhes e estritamente em palavras (aliás, nesta fase não é tão importante se ela é real ou apareceu diante de sua mente) – e iniciar o FLUX.1 em uma busca livre (com enumeração aleatória da semente) de acordo com esta descrição. Se as palavras forem escolhidas corretamente, o resultado desejado não demorará a chegar; a posição relativa dessas palavras (assumindo que elas formam frases significativas e não são simplesmente listadas com vírgulas) não é mais tão importante, assim como a presença de modificadores adicionais, nem sempre óbvios – como a já mencionada “obra-prima, de Greg Rutkowsky, HDR, 8K UHD” e assim por diante: a rede neural auxiliar T5 explicará ao conversor de token de texto para CLIP exatamente como recodificar a descrição recebida para obter um resultado visual correspondente.
Mas aqui está a questão: onde posso obter uma descrição detalhada e rigorosa de uma imagem completamente real, e não imaginária – especialmente em inglês; especialmente com o entendimento de que esse texto será então usado por um modelo generativo para criar uma nova imagem, ou seja, alguma especificidade na seleção de palavras e na construção de frases ainda deve estar presente? A resposta se sugere: seria lógico delegar essa tarefa a outra IA, treinada precisamente para reconhecer imagens e criar retratos verbais adequados de uma grande variedade de objetos. Bem, uma IA moderna definitivamente entenderá outra (“outra” não é uma opção aqui – elas são inanimadas); talvez até melhor que o Homo sapiens médio. E, estritamente falando, não é necessário construir um jardim de modelos de perfil restrito em um PC local para isso: ferramentas on-line – na nuvem – para converter uma imagem em texto descrevendo-a estão disponíveis em abundância, começando com o conhecido multimodal ChatGPT, Claude ou DeepSeek e terminando com outros mais modestos e especializados.
Mas todo o charme está justamente no fato de que, para formar um prompt de texto eficaz, que o circuito de entrada FLUX.1 será capaz de processar em um conjunto de tokens adequados para gerar a imagem desejada, bots de IA com meio bilhão ou mais de parâmetros de trabalho simplesmente não são necessários – assim como acesso a MYAs online gratuitos (eles são gratuitos para o usuário ocioso, e não para aquele que dá suporte ao seu trabalho na nuvem – e, portanto, têm um limite natural no número de solicitações de um endereço IP por um determinado período). Por exemplo, há modelos distribuídos livremente e executados localmente, criados para resolver problemas de visão computacional. Um exemplo é a família Projeto Florence desenvolvida pela Microsoft. Por exemplo, a variante Florence-2, treinada em 900 milhões de pares “imagem – descrição de texto”, oferece uma janela de contexto suficientemente espaçosa e alto desempenho para compor dicas longas e detalhadas (que o FLUX.1 percebe tão bem) e responder a cada solicitação, mesmo em um PC não muito potente, em um tempo calculado no máximo em dezenas de segundos.
A busca pelas extensões necessárias para o ComfyUI por palavras-chave via Manager é organizada de forma muito conveniente
⇡#O que você vê nesta imagem?
O ambiente de trabalho ComfyUI, já familiar aos leitores de nossos “Workshops”, oferece todas as ferramentas necessárias para integrar esses reconhecedores de imagem locais (os de nuvem, aliás, também, via API com a entrada de uma chave de identificação, mas eles têm suas próprias especificidades, e não os consideraremos neste material). Detalhes sobre como implantar e configurar este ambiente de trabalho em um PC Windows local com um adaptador gráfico Nvidia discreto especificamente para trabalhar com modelos da família FLUX.1 foram abordados nas edições 11 e 12 do AI Drawing Workshop. Vamos apenas enfatizar que para acessar o Florence-2 precisaremos de uma versão funcional atualizada do ComfyUI com uma extensão Manager ativa. A ferramenta que nos interessa neste caso é o nó “Florence2Run”, a capacidade de adicioná-lo ao fluxo de trabalho aparece após a instalação da extensão correspondente. É fácil fazer isso na instalação funcional do ComfyUI – basta chamar o Manager no menu principal, clicar no botão “Custom Nodes Manager” em sua interface e, na linha de pesquisa na janela que se abre com uma lista de extensões disponíveis, começar a digitar a palavra “caption” (“description”). Entusiastas do ambiente de trabalho que usamos já sugeriram algumas ferramentas para converter imagens em texto, mas a extensão ComfyUI-Florence2 do kijai é uma das mais populares e, talvez, a mais fácil de usar.
Outro lembrete importante: após instalar uma nova extensão (o botão “Instalar” na linha da lista correspondente), o sistema solicitará que você reinicie o servidor do ambiente de trabalho. Antes de fazer isso, faz sentido retornar ao menu do Gerenciador e clicar no botão “Atualizar tudo” lá – para que tanto o próprio ComfyUI quanto todas as outras extensões instaladas anteriormente sejam atualizadas para as versões mais atuais. Como o ambiente de trabalho está se desenvolvendo de forma extremamente ativa (devido a um forte aumento no interesse de entusiastas na implementação local de vários modelos muito bons com escalas abertas para converter texto e imagens em vídeos que apareceram quase simultaneamente), as atualizações aparecem visivelmente com mais frequência do que no final de 2024, digamos.
Um fragmento de um diagrama de sequência que gera uma descrição de texto da imagem original usando o nó “Florence2Run” e, em seguida, renderiza esse texto para o operador usando o nó “Mostrar qualquer”.
Após a reinicialização ser concluída – tanto do servidor ComfyUI quanto de sua interface web – abra uma nova janela para criar um ciclograma, clique duas vezes com o mouse no campo vazio e comece a digitar “Florence2Run” na barra de pesquisa do menu de seleção de nós que aparece. Selecionamos o necessário – e aqui está, a janela principal da ferramenta para reconhecimento de imagem, ou seja, para converter uma imagem (e, opcionalmente, uma dica esclarecendo o processo – se o nó for usado no modo de mascaramento) em texto (ou em algum tipo de imagem de serviço, a mesma máscara). Agora precisamos complementar o nó-chave com um meio de chamar o modelo: para fazer isso, a partir da entrada “florence2_model” em seu lado esquerdo, arrastaremos uma linha de conexão com o mouse – e simplesmente a soltaremos em algum lugar no espaço vazio do campo de trabalho. Aparecerá um menu com opções de nós adequados para organizar tal conexão; Vamos escolher entre eles aquele chamado “DownloadAndLoadFlorence2Model”. Não há tautologia neste nome: após selecionar um modelo específico no menu suspenso deste nó – por exemplo, Florence-2.1-Large – não há necessidade de executar nenhuma ação adicional, como baixar manualmente o arquivo correspondente e colocá-lo em um diretório específico. Após o ciclograma ser concluído e lançado para execução pela primeira vez, o próprio sistema determinará que o modelo necessário está faltando e o extrairá automaticamente do repositório on-line para a subpasta “LLM” da pasta “models” no diretório raiz do ComfyUI que ele mesmo criou (“download”) e, em seguida, o carregará na memória de vídeo para execução (“load”).
E para completar o ciclograma em um estado totalmente operacional, não resta muito: basta arrastar uma nova conexão com o mouse da entrada “imagem” no lado esquerdo do nó “Florence2Run”, soltar o botão da mesma forma e selecionar “Carregar imagem” no menu que se abre. O resultado do trabalho do reconhecedor de imagem de IA, para começar, será um texto descrevendo a imagem proposta: para ver esse texto, usaremos o nó “ShowAny” do pacote de extensão ComfyUI-Easy-Use (que provavelmente já está instalado por aqueles que trabalharam conosco na prototipagem rápida com o modelo FLUX.1 e, se não estiver, é fácil instalá-lo via Manager). Como conectaremos “ShowAny” da saída “caption” no lado direito do nó “Florence2Run”, a descrição do texto será exibida lá. Neste próprio nó, no menu suspenso “tarefa”, você precisa selecionar a tarefa “more_detailed_caption” — o resultado de sua execução será uma descrição bastante longa e detalhada da imagem em linguagem natural, adequada para transmissão — na forma de uma dica de texto — para a entrada do modelo generativo FLUX.1.
A primeira execução do ciclograma com os nós “Florence2Run” e “DownloadAndLoadFlorence2Model” pode levar vários minutos – tudo depende da largura do canal de Internet que a operadora possui.
⇡#E nós podemos fazer isso!
Na verdade, é isso na primeira aproximação: este texto pode ser usado posteriormente como uma dica para geração com o modelo FLUX.1: copie e mova para a janela do navegador adjacente, onde o ciclograma correspondente está aberto. É bastante aceitável integrar o bloco com o nó “Florence2Run” no processo de geração para evitar movimentos desnecessários de “Ctrl+C”/“Ctrl+V”, mas o ponto é que o modelo que gera a descrição da imagem também é generativo: sua saída será ligeiramente diferente a cada vez. E, portanto, faz sentido – considerando, além disso, que este miniciclograma é executado muito rapidamente – executá-lo várias vezes, copiando os resultados obtidos pelo menos para o “Bloco de notas”, para então compilar uma descrição mais completa e abrangente a partir deles. Entretanto, neste caso — e verificamos uma dúzia de sementes aleatórias — as imagens sempre saem muito, muito parecidas, até mesmo na tipografia e no design do texto, embora seus parâmetros não sejam claramente definidos pela dica. É preciso presumir que este pôster icônico fazia parte do conjunto de treinamento dos modelos da família Florence e FLUX.1, de modo que um “entende” o outro mesmo a partir de uma descrição tão breve, como dizem, num piscar de olhos.
Esquerda – imagem gerada pelo FLUX.1 [dev] a partir da descrição de Florence2 do pôster “Rosie the Riveter” sem quaisquer acréscimos; no centro – todos os parâmetros são os mesmos, incluindo a semente, mas foi adicionado o LoRA Illustration V2 com uma resistência ao impacto de 1,0; à direita – o mesmo, mas com uma força de 0,5
Vamos testar isso alterando ligeiramente os parâmetros operacionais do modelo de geração de imagem — os pesos nas entradas de seus perceptrons — aplicando LoRA a ele. Como o pôster é um desenho, ainda que bastante realista, usaremos a versão Illustration V2, disponível no portal Civitai: em geral, há muitos minimodelos ali para enfatizar esse estilo artístico específico, e escolhemos este quase por acaso. Usaremos o mesmo ciclograma para geração do “Workshop” anterior, onde foram utilizados os nós “Unet Loader (GGUF)” para o modelo Q8.0 quantizado FLUX.1 [dev] e “Power Lora Loader (rgthree)” para carregar os próprios modelos LoRA. Definiremos os seguintes parâmetros de geração: proporção da tela – 3:4, tamanho da imagem – 0,5 Mpix, amostrador – dpmpp_2m, agendador – sgm_uniform, etapas – 20 e com uma semente de 574671788216636, escolhendo o parâmetro “força” LoRA igual a 1,00, obteremos uma imagem igual à original, e não uma cópia quase exata dela. Ainda é um pôster reconhecível com a mesma inscrição, mas a tipografia é diferente, Rosie está virada para o outro lado e, no geral, o estilo da imagem está mais próximo do gênero pin-up americano do que do desenho de propaganda. Mas se você reduzir a força de impacto do minimodelo Illustration V2 para 0,5, você obtém um compromisso interessante: a imagem como um todo será mais atraente do que sem LoRA (e isso é compreensível; a família FLUX.1 geralmente lida melhor com a exibição de imagens fotorrealistas do que desenhos), especialmente em termos de mãos e dobras no tecido da blusa, mas também será mais fiel ao original.
⇡#Mais perto da realidade
Agora, vamos nos afastar do pôster icônico, que, devido à sua presença indiscutível em bancos de dados de treinamento, é a priori “muito familiar” a todos os modelos generativos que lidam com imagens visuais, e vamos ver o quão bom Florence2 é em descrever imagens para as quais FLUX.1 não tem uma referência clara. Para fazer isso, baixaremos uma imagem de uma garota na academia do PXHere, um site que oferece ilustrações gratuitas e de código aberto para uso comercial e não comercial, e veremos com que precisão nossos pares de IA podem reproduzi-la. Primeiro, modificamos ligeiramente o ciclograma com o nó “Florence2Run”: para salvar a imagem anotada e sua descrição gerada ao mesmo tempo, usaremos outra extensão para ComfyUI com um nome autoexplicativo — Salvar imagem com metadados de geração. Ele é instalado novamente através do Gerenciador, onde é encontrado pelo nome (o autor é giriss, só por precaução). O nó “Salvar imagem com metadados” desta extensão inclui campos para inserir manualmente as partes positivas e negativas da dica. Você deve converter uma dessas janelas em um “conector” de entrada para receber dados – clicando com o botão direito do mouse no próprio nó e selecionando “Converter widget em entrada” – “Converter positivo em entrada” no menu e, em seguida, conectar a “saída” do nó “Mostrar qualquer” à entrada “positiva” que aparece no lado esquerdo, na qual aparece a descrição da imagem proposta, gerada pelo modelo Florence2.
Ao adicionar outro nó, “Salvar imagem com metadados”, aos quatro nós com os quais já estamos familiarizados, poderemos salvar a imagem original junto com sua descrição de texto em um único arquivo PNG, e você poderá ver o bloco de texto no início deste arquivo, mesmo sem iniciar o ambiente de trabalho ComfyUI — basta abri-lo em qualquer visualizador de conteúdo (visualizador/editor hexadecimal); algo como o que normalmente é chamado no gerenciador de arquivos FAR pressionando “F3”
O que mais o nó Florence2Run pode fazer? Como o modelo generativo no qual ele se baseia foi projetado para reconhecimento de padrões, o MLM executado localmente também faz um bom trabalho nessa tarefa. No menu “tarefa” do nó em questão, existem os modos “region_caption” e “dence_region_caption”: o primeiro é para reconhecer objetos bem espaçados, o segundo é para objetos densamente agrupados. Se você anexar um nó padrão “Imagem de visualização” à saída “imagem” no lado direito do “Florence2Run”, depois de processar uma das duas opções especificadas, a imagem original aparecerá com retângulos sobrepostos, que limitam as áreas ocupadas por objetos reconhecidos.
À esquerda está a foto original de uma garota em uma academia do banco de fotos gratuito PXHere; à direita está uma visualização FLUX.1 (sem nenhum LoRA) da primeira tentativa de descrevê-lo usando Florence2
No entanto, esse método só funcionará corretamente para imagens que não sejam muito realistas. Uma maçã real, por exemplo, inevitavelmente criará reflexos nos objetos ao seu redor: embora fracos, um modelo generativo decente como o FLUX.1, treinado em uma grande variedade de fotografias, tem uma “ideia” deles, então uma laranja sobre uma toalha de mesa branca, que projeta um brilho levemente esverdeado sobre essa toalha (porque havia uma maçã ali antes), parecerá pouco natural. Por esse motivo, trabalhar com máscaras geralmente envolve remover da imagem não apenas o objeto a ser substituído, mas também seus arredores imediatos, para que o modelo generativo possa então desenhar outra coisa em seu lugar da maneira mais natural possível. A máscara ampliada também permite que você redesenhe um objeto com uma mudança de forma e tamanho: por exemplo, a máscara de IA gerada pela dica “saia” não permitirá que você “troque” as roupas de uma garota desenhada de uma saia para calças – nem todas as áreas necessárias serão capturadas por ela; mas um criado à mão é muito bom.
O nó básico despretensioso “Carregar imagem” na versão atual do ComfyUI oferece funcionalidade integrada para criar máscaras – o acesso ao editor correspondente é aberto por meio do menu do botão direito
⇡#Controle manual
Vamos demonstrar com um exemplo como isso é feito no caso do FLUX.1 – especialmente porque para desenho inteligente de repintura e acabamento (funcionalidade de pintura interna e externa, respectivamente), a própria empresa Black Forest Labs já ofereceu um modelo FLUX.1-Fill-dev especializado. Este modelo, no entanto, ocupa quase 24 GB em sua forma original, mas entusiastas criaram versões quantizadas em GGUF para ele; em particular, flux1-dev-Q8_0.gguf; mais compacto em tamanho (cerca de 13 GB) e praticamente indistinguível do original em termos de qualidade das imagens criadas. O arquivo baixado do link acima deve ser colocado no diretório models/unet na estrutura de diretório de trabalho do ComfyUI, junto com outros modelos GGUF e, então, em vez do nosso ciclograma padrão para FLUX.1 [dev], use o arquivo flux-fill-inpaint-example.json do guia oficial para implementar o redesenho de IA no ambiente ComfyUI. Não há nada extremamente complicado aí; Além disso, em vez do nó-chave usual “SamplerCustomAdvanced” para a geração real, é usado o nó clássico “KSampler”, que é lembrado dos modelos de difusão estável, que tem entradas separadas para as partes positivas e negativas da dica – para a parte negativa no caso do FLUX.1, é claro, você terá que inserir uma linha em branco. Também é importante observar a combinação incomum de parâmetros: para a versão “redesenhar” deste modelo, sugere-se definir o parâmetro de orientação como 30,0 (em vez do padrão 3,5 para Flux.1 [dev]), o amostrador como “euler”, o planejador como “normal”, os passos como 20 e “cfg” no nó “KSampler” como 1,0.
O mascaramento em si é feito usando ferramentas incorporadas no nó de aparência modesta “Carregar imagem”. Após carregar a imagem a ser redesenhada, você precisa clicar com o botão direito do mouse sobre ela e selecionar a opção “Abrir no MaskEditor” no menu que aparece. A imagem será aberta em um editor de máscaras lacônico, mas eficaz, onde você deve selecionar o tamanho correto do pincel, pintar sobre o objeto a ser redesenhado (além de seus arredores imediatos) e clicar em “Salvar”. Como resultado, uma mancha cinza aparecerá na imagem original e uma nova geração ocorrerá nela. Mas o que exatamente será determinado pelo campo de texto da parte positiva da dica: ali você precisa descrever de forma breve e sucinta o que exatamente o operador quer ver no lugar do ponto que acabou de aparecer. O modelo de preenchimento FLUX.1 usado para redesenhar e redesenhar é treinado para adotar o estilo e a composição da imagem que está sendo alterada a partir da parte dela que não está coberta pela máscara e, portanto, o que aparece como resultado em vez do objeto removido inicialmente geralmente se encaixa harmoniosamente e naturalmente na imagem final. A propósito, todos os exemplos que demos aqui estão tradicionalmente disponíveis para download como um arquivo com imagens PNG contendo os ciclogramas necessários, neste link.
Um fragmento do ciclograma de referência flux-fill-inpaint-example.json, que mostra nós e parâmetros que não são típicos do modelo FLUX.1 [dev]/[schnell], mas são bastante justificados no caso do FLUX.1 [fill]
Então acontece que MNMs executados localmente têm aplicação muito limitada no caso de geração de imagens — para descrever imagens de terceiros, segmentação, detecção de objetos e, ao que parece, isso é tudo? Talvez isso seja verdade – o poder (expresso no número de parâmetros ativos de uma rede neural multicamadas) de modelos generativos adequados para execução em um PC para jogos e em um servidor de nuvem em hiperescala é incomparável. E, ainda assim, os entusiastas continuam a desenvolver bots T2T locais, especialmente ativamente com o surgimento de modelos de agentes destilados, especializados em resolver tarefas bastante restritas. Quais e para que propósito exatamente – tentaremos descobrir nas próximas edições do nosso “Workshop”!
⇡#Materiais relacionados
A história sobre o jogo de tiro de ficção científica Titanfall 3, que está em…
Em fevereiro, soube-se que a mão punitiva de Elon Musk, em sua função de chefe…
O lançamento de um foguete Atlas V da United Launch Alliance transportando 27 satélites de…
Kioxia, AIO Core e Kyocera anunciaram o desenvolvimento de um protótipo de SSD óptico compatível…
A Microsoft está considerando outra rodada de demissões em maio, apurou o Business Insider. Os…
A editora Focus Entertainment e a desenvolvedora Saber Interactive anunciaram a data de lançamento do…