Meta anuncia o poderoso gerador de imagens AI CM3Leon com suporte para comandos de edição precisos

Nos últimos dois anos, os geradores de imagens baseados em IA tornaram-se quase uma ocorrência diária e, à primeira vista, eles não diferem tanto uns dos outros em operação. Mas a Meta* afirma que o novo modelo CM3Leon desenvolvido pelos engenheiros da empresa é um avanço.

Fonte da imagem: Meta*

A diferença entre o modelo Meta * CM3Leon, como dizem os desenvolvedores, é o alto desempenho na conversão de texto em imagem. Além disso, este é um dos primeiros modelos que prevê a operação inversa – a criação de legendas para as imagens. A maioria dos geradores de imagens modernos, incluindo OpenAI DALL-E, Google Imagen e Stable Diffusion, usam difusão para criar imagens – o processo de remover gradualmente o ruído da imagem original conforme ela se aproxima do objetivo. O resultado é convincente, mas esse algoritmo requer recursos computacionais significativos, o que torna a operação desses sistemas cara, os próprios modelos são lentos e simplesmente não podem funcionar em tempo real.

Editando a imagem original: mude a garota para um homem barbudo, adicione óculos, aumente a idade, pinte o rosto

O modelo CM3Leon opera de forma fundamentalmente diferente – é baseado em um algoritmo de transformação que avalia a relevância dos dados de origem, seja texto ou imagem. Vale ressaltar que o OpenAI originalmente construiu geradores de imagens com base em modelos de transformadores, mas o Image GPT foi substituído por algoritmos de difusão. Ao treinar o CM3Leon, foram usadas 2 milhões de imagens licenciadas da Shutterstock – a versão mais poderosa do modelo tem 7 bilhões de parâmetros – o dobro do OpenAI DALL-E 2. Por fim, ele usa o mecanismo SFT (Supervised Fine-Tuning), que geralmente são geradores de texto. Como resultado, o desempenho do modelo aumentou ao gerar imagens e compilar descrições para imagens finalizadas, e o sistema ganhou a capacidade de editar imagens usando comandos de texto, por exemplo,

Geração de interiores com objetos para os quais as coordenadas exatas são especificadas

Como resultado, o Meta* CM3Leon aceita comandos muito específicos como dados iniciais – até a área da imagem em pixels que um objeto deve ser localizado. Para comparação, o DALL-E ignora essas nuances e muitas vezes até se recusa a colocar objetos na imagem que são indicados diretamente nas instruções.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

Israel adotou o canhão laser Iron Ray, que resolve o problema da perda de energia no ar com óptica adaptativa.

No último domingo, o exército israelense colocou em operação sua primeira bateria de laser "Feixe…

10 horas atrás

A BYD, da China, registrou seu crescimento de vendas mais fraco em cinco anos.

O crescimento das vendas da gigante automotiva chinesa BYD desacelerou para 7,73% em 2025, o…

13 horas atrás

A Verdade do Champanhe: Um aglomerado de galáxias com um nome festivo revela os segredos da matéria escura.

Em 31 de dezembro de 2020, um evento raro foi descoberto: a fusão de dois…

13 horas atrás

A MSI apresenta dois monitores gamer de 32 polegadas com telas 4K QD-OLED.

A MSI expandiu sua linha de monitores gamer de 32 polegadas com telas 4K QD-OLED.…

13 horas atrás

A Samsung começou a enviar painéis OLED V-Stripe QD de 34 polegadas com posicionamento vertical de subpixels.

A Samsung Display anunciou o início da produção em larga escala de seus painéis V-Stripe…

15 horas atrás