Stability AI lançou uma prévia do Stable Diffusion 3.0, seu principal modelo de inteligência artificial de próxima geração para gerar imagens a partir de descrições de texto. O Stable Diffusion 3.0 estará disponível em diferentes versões baseadas em redes neurais que variam em tamanho de 800 milhões a 8 bilhões de parâmetros.
Durante o ano passado, a Stability AI melhorou continuamente e lançou várias redes neurais, cada uma mostrando níveis crescentes de sofisticação e qualidade. O lançamento do SDXL em julho melhorou muito o modelo básico de Difusão Estável, e agora a empresa quer ir muito mais longe.
O novo modelo Stable Diffusion 3.0 foi projetado para fornecer melhor qualidade de imagem e melhor desempenho ao criar imagens a partir de sinais complexos. A nova rede neural fornecerá tipografia significativamente melhor do que as versões anteriores do Stable Diffusion, garantindo texto mais preciso nas imagens geradas. A tipografia tem sido o ponto fraco do Stable Diffusion no passado, como tem sido o caso de muitos outros artistas de IA.
Stable Diffusion 3.0 não é apenas uma nova versão do modelo anterior de Stability AI, porque é baseado em uma nova arquitetura. “Stable Diffusion 3 é um modelo de difusão transformador, um novo tipo de arquitetura semelhante ao usado no modelo OpenAI Sora recentemente introduzido”, disse Emad Mostaque, CEO da Stability AI, ao VentureBeat. “Este é um verdadeiro sucessor do Stable Diffusion original.”
Stability AI está experimentando vários tipos de abordagens de geração de imagens. No início deste mês, a empresa lançou uma versão prévia do Stable Cascade, que usa a arquitetura Würstchen para melhorar o desempenho e a precisão. Stable Diffusion 3.0 adota uma abordagem diferente, usando modelos de difusão de transformadores. “A Difusão Estável não tinha um transformador antes”, disse Mostak.
Os transformadores estão na base de muitas das redes neurais modernas que lançaram a revolução da inteligência artificial. Eles são amplamente utilizados como base de modelos de geração de texto. A geração de imagens tem estado em grande parte no domínio dos modelos de difusão. O artigo de pesquisa que detalha os Transformadores de Difusão (DiT) explica que é uma nova arquitetura para modelos de difusão que substitui o backbone U-Net amplamente utilizado por um transformador que opera em regiões ocultas da imagem. O uso de DiT permite um uso mais eficiente do poder computacional e supera outras abordagens para geração difusa de imagens.
Outra inovação importante da qual o Stable Diffusion 3.0 aproveita é a correspondência de threads. O artigo de pesquisa Flow Matching explica que é um novo método de treinamento de redes neurais usando “Continuous Normalizing Flow Matching” (CNF) para modelar distribuições de dados complexas. De acordo com os pesquisadores, o uso de CFM com caminhos de transporte ideais resulta em aprendizado mais rápido, amostragem mais eficiente e melhor rendimento em comparação com caminhos de difusão.
A tipografia aprimorada no Stable Diffusion 3.0 é o resultado de várias melhorias que o Stability AI incorporou ao novo modelo. Como explicou Mostak, a geração de textos em imagens de alta qualidade foi possível graças ao uso de um modelo de transformador de difusão e codificadores de texto adicionais. Com o Stable Diffusion 3.0, agora é possível gerar frases completas a partir de imagens com um estilo de escrita coerente.
Embora o Stable Diffusion 3.0 esteja inicialmente sendo demonstrado como uma tecnologia de IA para converter texto em imagens, ele será a base para muito mais. Nos últimos meses, a Stability AI também criará redes neurais para criar imagens e vídeos 3D.
«Criamos modelos abertos que podem ser usados em qualquer lugar e adaptados a qualquer necessidade”, disse Mostak. “Esta é uma série de modelos em diferentes tamanhos que servirão de base para o desenvolvimento da nossa próxima geração de modelos visuais, incluindo vídeo, 3D e muito mais.”#!MARKER#!