Stability AI lançou uma prévia do Stable Diffusion 3.0, seu principal modelo de inteligência artificial de próxima geração para gerar imagens a partir de descrições de texto. O Stable Diffusion 3.0 estará disponível em diferentes versões baseadas em redes neurais que variam em tamanho de 800 milhões a 8 bilhões de parâmetros.
Fonte da imagem: Difusão Estável 3.0
Durante o ano passado, a Stability AI melhorou continuamente e lançou várias redes neurais, cada uma mostrando níveis crescentes de sofisticação e qualidade. O lançamento do SDXL em julho melhorou muito o modelo básico de Difusão Estável, e agora a empresa quer ir muito mais longe.
O novo modelo Stable Diffusion 3.0 foi projetado para fornecer melhor qualidade de imagem e melhor desempenho ao criar imagens a partir de sinais complexos. A nova rede neural fornecerá tipografia significativamente melhor do que as versões anteriores do Stable Diffusion, garantindo texto mais preciso nas imagens geradas. A tipografia tem sido o ponto fraco do Stable Diffusion no passado, como tem sido o caso de muitos outros artistas de IA.
Stable Diffusion 3.0 não é apenas uma nova versão do modelo anterior de Stability AI, porque é baseado em uma nova arquitetura. “Stable Diffusion 3 é um modelo de difusão transformador, um novo tipo de arquitetura semelhante ao usado no modelo OpenAI Sora recentemente introduzido”, disse Emad Mostaque, CEO da Stability AI, ao VentureBeat. “Este é um verdadeiro sucessor do Stable Diffusion original.”
Stability AI está experimentando vários tipos de abordagens de geração de imagens. No início deste mês, a empresa lançou uma versão prévia do Stable Cascade, que usa a arquitetura Würstchen para melhorar o desempenho e a precisão. Stable Diffusion 3.0 adota uma abordagem diferente, usando modelos de difusão de transformadores. “A Difusão Estável não tinha um transformador antes”, disse Mostak.
Os transformadores estão na base de muitas das redes neurais modernas que lançaram a revolução da inteligência artificial. Eles são amplamente utilizados como base de modelos de geração de texto. A geração de imagens tem estado em grande parte no domínio dos modelos de difusão. O artigo de pesquisa que detalha os Transformadores de Difusão (DiT) explica que é uma nova arquitetura para modelos de difusão que substitui o backbone U-Net amplamente utilizado por um transformador que opera em regiões ocultas da imagem. O uso de DiT permite um uso mais eficiente do poder computacional e supera outras abordagens para geração difusa de imagens.
Outra inovação importante da qual o Stable Diffusion 3.0 aproveita é a correspondência de threads. O artigo de pesquisa Flow Matching explica que é um novo método de treinamento de redes neurais usando “Continuous Normalizing Flow Matching” (CNF) para modelar distribuições de dados complexas. De acordo com os pesquisadores, o uso de CFM com caminhos de transporte ideais resulta em aprendizado mais rápido, amostragem mais eficiente e melhor rendimento em comparação com caminhos de difusão.
A tipografia aprimorada no Stable Diffusion 3.0 é o resultado de várias melhorias que o Stability AI incorporou ao novo modelo. Como explicou Mostak, a geração de textos em imagens de alta qualidade foi possível graças ao uso de um modelo de transformador de difusão e codificadores de texto adicionais. Com o Stable Diffusion 3.0, agora é possível gerar frases completas a partir de imagens com um estilo de escrita coerente.
Embora o Stable Diffusion 3.0 esteja inicialmente sendo demonstrado como uma tecnologia de IA para converter texto em imagens, ele será a base para muito mais. Nos últimos meses, a Stability AI também criará redes neurais para criar imagens e vídeos 3D.
«Criamos modelos abertos que podem ser usados em qualquer lugar e adaptados a qualquer necessidade”, disse Mostak. “Esta é uma série de modelos em diferentes tamanhos que servirão de base para o desenvolvimento da nossa próxima geração de modelos visuais, incluindo vídeo, 3D e muito mais.”#!MARKER#!
Os problemas de acesso ao ChatGPT começaram por volta das 10h05 da manhã, horário do…
A Huawei apresentou novos óculos inteligentes, que contam com diversas novidades em relação à versão…
A editora Kalypso Media e os desenvolvedores do estúdio alemão Gaming Minds Studios anunciaram o…
Um usuário do Reddit reclamou da Toshiba, que, segundo ele, se recusou a cumprir suas…
A rápida adoção da IA expandiu as capacidades dos cibercriminosos para realizar ataques. De acordo…
O astronauta da NASA Reid Wiseman, comandante da recente missão lunar Artemis II, publicou um…