Categorias: Mercado de tecnologia e TI. notíciaProgramas

Anunciado Stable Diffusion 3.0 – IA para desenhar mudou a arquitetura e aprendeu a escrever

Stability AI lançou uma prévia do Stable Diffusion 3.0, seu principal modelo de inteligência artificial de próxima geração para gerar imagens a partir de descrições de texto. O Stable Diffusion 3.0 estará disponível em diferentes versões baseadas em redes neurais que variam em tamanho de 800 milhões a 8 bilhões de parâmetros.

Fonte da imagem: Difusão Estável 3.0

Durante o ano passado, a Stability AI melhorou continuamente e lançou várias redes neurais, cada uma mostrando níveis crescentes de sofisticação e qualidade. O lançamento do SDXL em julho melhorou muito o modelo básico de Difusão Estável, e agora a empresa quer ir muito mais longe.

O novo modelo Stable Diffusion 3.0 foi projetado para fornecer melhor qualidade de imagem e melhor desempenho ao criar imagens a partir de sinais complexos. A nova rede neural fornecerá tipografia significativamente melhor do que as versões anteriores do Stable Diffusion, garantindo texto mais preciso nas imagens geradas. A tipografia tem sido o ponto fraco do Stable Diffusion no passado, como tem sido o caso de muitos outros artistas de IA.

Stable Diffusion 3.0 não é apenas uma nova versão do modelo anterior de Stability AI, porque é baseado em uma nova arquitetura. “Stable Diffusion 3 é um modelo de difusão transformador, um novo tipo de arquitetura semelhante ao usado no modelo OpenAI Sora recentemente introduzido”, disse Emad Mostaque, CEO da Stability AI, ao VentureBeat. “Este é um verdadeiro sucessor do Stable Diffusion original.”

Stability AI está experimentando vários tipos de abordagens de geração de imagens. No início deste mês, a empresa lançou uma versão prévia do Stable Cascade, que usa a arquitetura Würstchen para melhorar o desempenho e a precisão. Stable Diffusion 3.0 adota uma abordagem diferente, usando modelos de difusão de transformadores. “A Difusão Estável não tinha um transformador antes”, disse Mostak.

Os transformadores estão na base de muitas das redes neurais modernas que lançaram a revolução da inteligência artificial. Eles são amplamente utilizados como base de modelos de geração de texto. A geração de imagens tem estado em grande parte no domínio dos modelos de difusão. O artigo de pesquisa que detalha os Transformadores de Difusão (DiT) explica que é uma nova arquitetura para modelos de difusão que substitui o backbone U-Net amplamente utilizado por um transformador que opera em regiões ocultas da imagem. O uso de DiT permite um uso mais eficiente do poder computacional e supera outras abordagens para geração difusa de imagens.

Outra inovação importante da qual o Stable Diffusion 3.0 aproveita é a correspondência de threads. O artigo de pesquisa Flow Matching explica que é um novo método de treinamento de redes neurais usando “Continuous Normalizing Flow Matching” (CNF) para modelar distribuições de dados complexas. De acordo com os pesquisadores, o uso de CFM com caminhos de transporte ideais resulta em aprendizado mais rápido, amostragem mais eficiente e melhor rendimento em comparação com caminhos de difusão.

A tipografia aprimorada no Stable Diffusion 3.0 é o resultado de várias melhorias que o Stability AI incorporou ao novo modelo. Como explicou Mostak, a geração de textos em imagens de alta qualidade foi possível graças ao uso de um modelo de transformador de difusão e codificadores de texto adicionais. Com o Stable Diffusion 3.0, agora é possível gerar frases completas a partir de imagens com um estilo de escrita coerente.

Embora o Stable Diffusion 3.0 esteja inicialmente sendo demonstrado como uma tecnologia de IA para converter texto em imagens, ele será a base para muito mais. Nos últimos meses, a Stability AI também criará redes neurais para criar imagens e vídeos 3D.

«Criamos modelos abertos que podem ser usados em qualquer lugar e adaptados a qualquer necessidade”, disse Mostak. “Esta é uma série de modelos em diferentes tamanhos que servirão de base para o desenvolvimento da nossa próxima geração de modelos visuais, incluindo vídeo, 3D e muito mais.”#!MARKER#!

avalanche

Próximo Mesmo os executivos seniores não ficaram imunes às demissões na Cisco »

Anterior « Os servidores do “jogo de RPG de ação dos sonhos” Last Epoch não conseguem lidar com a carga, mas o jogo já superou o desempenho de Diablo IV online seis vezes

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

A Meta✴ oferecerá treinamento gratuito em redes de fibra óptica para americanos, ajudando-os a implantar rapidamente seus centros de dados com IA.

A Meta✴ anunciou o lançamento de um programa gratuito de quatro semanas, o LevelUp Fiber…

3 horas atrás

Análise da MSI MEG X870E ACE MAX: A Rainha Mãe! / Placas-mãe

Meu primeiro contato com as placas-mãe da série MEG ACE foi em 2018, quando recebemos…

3 horas atrás

Mercado de TI

Tim Cook está deixando o cargo de CEO da Apple, e Iron Ternus assumirá o posto.

A Apple anunciou uma mudança no cargo de CEO: John Ternus, atualmente vice-presidente de engenharia…

3 horas atrás

Programas

A Meta está testando o WhatsApp Plus, uma assinatura que adiciona melhorias estéticas.

A Meta✴ está testando uma assinatura do WhatsApp Plus, que desbloqueará diversos recursos premium no…

4 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Deezer reclamou que metade das músicas baixadas agora são criadas por inteligência artificial – uma tendência que o serviço está combatendo ativamente.

Segundo o serviço francês de streaming de música online Deezer, sua plataforma recebe aproximadamente 75.000…

4 horas atrás

Jogos

Calendário de lançamentos de 20 a 26 de abril: Vampire Crawlers, Masters of Albion, Kiln e Tides of Tomorrow.

O jogo doméstico "Bylina" está chegando, aventuras malucas no estilo de Jay e Silent Bob…

5 horas atrás

Anunciado Stable Diffusion 3.0 – IA para desenhar mudou a arquitetura e aprendeu a escrever

Conteúdo relacionado

Postagens recentes

A Meta✴ oferecerá treinamento gratuito em redes de fibra óptica para americanos, ajudando-os a implantar rapidamente seus centros de dados com IA.

Análise da MSI MEG X870E ACE MAX: A Rainha Mãe! / Placas-mãe

Tim Cook está deixando o cargo de CEO da Apple, e Iron Ternus assumirá o posto.

A Meta está testando o WhatsApp Plus, uma assinatura que adiciona melhorias estéticas.

A Deezer reclamou que metade das músicas baixadas agora são criadas por inteligência artificial – uma tendência que o serviço está combatendo ativamente.

Calendário de lançamentos de 20 a 26 de abril: Vampire Crawlers, Masters of Albion, Kiln e Tides of Tomorrow.