Anunciado Stable Diffusion 3.0 – IA para desenhar mudou a arquitetura e aprendeu a escrever

Stability AI lançou uma prévia do Stable Diffusion 3.0, seu principal modelo de inteligência artificial de próxima geração para gerar imagens a partir de descrições de texto. O Stable Diffusion 3.0 estará disponível em diferentes versões baseadas em redes neurais que variam em tamanho de 800 milhões a 8 bilhões de parâmetros.

Fonte da imagem: Difusão Estável 3.0

Durante o ano passado, a Stability AI melhorou continuamente e lançou várias redes neurais, cada uma mostrando níveis crescentes de sofisticação e qualidade. O lançamento do SDXL em julho melhorou muito o modelo básico de Difusão Estável, e agora a empresa quer ir muito mais longe.

O novo modelo Stable Diffusion 3.0 foi projetado para fornecer melhor qualidade de imagem e melhor desempenho ao criar imagens a partir de sinais complexos. A nova rede neural fornecerá tipografia significativamente melhor do que as versões anteriores do Stable Diffusion, garantindo texto mais preciso nas imagens geradas. A tipografia tem sido o ponto fraco do Stable Diffusion no passado, como tem sido o caso de muitos outros artistas de IA.

Stable Diffusion 3.0 não é apenas uma nova versão do modelo anterior de Stability AI, porque é baseado em uma nova arquitetura. “Stable Diffusion 3 é um modelo de difusão transformador, um novo tipo de arquitetura semelhante ao usado no modelo OpenAI Sora recentemente introduzido”, disse Emad Mostaque, CEO da Stability AI, ao VentureBeat. “Este é um verdadeiro sucessor do Stable Diffusion original.”

Stability AI está experimentando vários tipos de abordagens de geração de imagens. No início deste mês, a empresa lançou uma versão prévia do Stable Cascade, que usa a arquitetura Würstchen para melhorar o desempenho e a precisão. Stable Diffusion 3.0 adota uma abordagem diferente, usando modelos de difusão de transformadores. “A Difusão Estável não tinha um transformador antes”, disse Mostak.

Os transformadores estão na base de muitas das redes neurais modernas que lançaram a revolução da inteligência artificial. Eles são amplamente utilizados como base de modelos de geração de texto. A geração de imagens tem estado em grande parte no domínio dos modelos de difusão. O artigo de pesquisa que detalha os Transformadores de Difusão (DiT) explica que é uma nova arquitetura para modelos de difusão que substitui o backbone U-Net amplamente utilizado por um transformador que opera em regiões ocultas da imagem. O uso de DiT permite um uso mais eficiente do poder computacional e supera outras abordagens para geração difusa de imagens.

Outra inovação importante da qual o Stable Diffusion 3.0 aproveita é a correspondência de threads. O artigo de pesquisa Flow Matching explica que é um novo método de treinamento de redes neurais usando “Continuous Normalizing Flow Matching” (CNF) para modelar distribuições de dados complexas. De acordo com os pesquisadores, o uso de CFM com caminhos de transporte ideais resulta em aprendizado mais rápido, amostragem mais eficiente e melhor rendimento em comparação com caminhos de difusão.

A tipografia aprimorada no Stable Diffusion 3.0 é o resultado de várias melhorias que o Stability AI incorporou ao novo modelo. Como explicou Mostak, a geração de textos em imagens de alta qualidade foi possível graças ao uso de um modelo de transformador de difusão e codificadores de texto adicionais. Com o Stable Diffusion 3.0, agora é possível gerar frases completas a partir de imagens com um estilo de escrita coerente.

Embora o Stable Diffusion 3.0 esteja inicialmente sendo demonstrado como uma tecnologia de IA para converter texto em imagens, ele será a base para muito mais. Nos últimos meses, a Stability AI também criará redes neurais para criar imagens e vídeos 3D.

«Criamos modelos abertos que podem ser usados ​​em qualquer lugar e adaptados a qualquer necessidade”, disse Mostak. “Esta é uma série de modelos em diferentes tamanhos que servirão de base para o desenvolvimento da nossa próxima geração de modelos visuais, incluindo vídeo, 3D e muito mais.”#!MARKER#!

avalanche

Postagens recentes

Taiwan emite mandado de prisão contra o CEO da OnePlus por aliciamento de dezenas de engenheiros locais.

Promotores taiwaneses emitiram um mandado de prisão contra Pete Lau, CEO e cofundador da fabricante…

1 hora atrás

Orken é um RPG de ação e fantasia sobre a luta entre orcs e humanos, uma mistura de Dark Souls, Mass Effect e Hi-Fi Rush.

O estúdio de arte alemão Sixmorevodka, conhecido por suas ilustrações para League of Legends, decidiu…

2 horas atrás

A Gunnir e a Sparkle lançaram as placas gráficas profissionais Intel Arc Pro B60, com preços a partir de US$ 745.

A Gunnir e a Sparkle lançaram suas versões da placa gráfica Intel Arc Pro B60…

2 horas atrás

O Snapdragon X2 Plus mostrou-se mais rápido que os processadores Intel e AMD, mas perdeu para o Apple M4 nos primeiros testes.

A PC Magazine testou os processadores Snapdragon X2 Plus, apresentados pela Qualcomm na CES 2026,…

4 horas atrás

O mercado de semicondutores cresceu 21%, atingindo US$ 793 bilhões no ano passado, com a Intel saindo do grupo das três maiores empresas.

Especialistas da Gartner já resumiram os resultados do mercado de semicondutores do ano passado, relatando…

4 horas atrás

O CEO da Nvidia não acredita em “IA divina” e critica previsões pessimistas.

A Nvidia continua sendo uma das principais beneficiárias do boom da IA, e por isso…

4 horas atrás