Nos últimos dois anos, os geradores de imagens baseados em IA tornaram-se quase uma ocorrência diária e, à primeira vista, eles não diferem tanto uns dos outros em operação. Mas a Meta* afirma que o novo modelo CM3Leon desenvolvido pelos engenheiros da empresa é um avanço.

Fonte da imagem: Meta*

A diferença entre o modelo Meta * CM3Leon, como dizem os desenvolvedores, é o alto desempenho na conversão de texto em imagem. Além disso, este é um dos primeiros modelos que prevê a operação inversa – a criação de legendas para as imagens. A maioria dos geradores de imagens modernos, incluindo OpenAI DALL-E, Google Imagen e Stable Diffusion, usam difusão para criar imagens – o processo de remover gradualmente o ruído da imagem original conforme ela se aproxima do objetivo. O resultado é convincente, mas esse algoritmo requer recursos computacionais significativos, o que torna a operação desses sistemas cara, os próprios modelos são lentos e simplesmente não podem funcionar em tempo real.

Editando a imagem original: mude a garota para um homem barbudo, adicione óculos, aumente a idade, pinte o rosto

O modelo CM3Leon opera de forma fundamentalmente diferente – é baseado em um algoritmo de transformação que avalia a relevância dos dados de origem, seja texto ou imagem. Vale ressaltar que o OpenAI originalmente construiu geradores de imagens com base em modelos de transformadores, mas o Image GPT foi substituído por algoritmos de difusão. Ao treinar o CM3Leon, foram usadas 2 milhões de imagens licenciadas da Shutterstock – a versão mais poderosa do modelo tem 7 bilhões de parâmetros – o dobro do OpenAI DALL-E 2. Por fim, ele usa o mecanismo SFT (Supervised Fine-Tuning), que geralmente são geradores de texto. Como resultado, o desempenho do modelo aumentou ao gerar imagens e compilar descrições para imagens finalizadas, e o sistema ganhou a capacidade de editar imagens usando comandos de texto, por exemplo,

Geração de interiores com objetos para os quais as coordenadas exatas são especificadas

Como resultado, o Meta* CM3Leon aceita comandos muito específicos como dados iniciais – até a área da imagem em pixels que um objeto deve ser localizado. Para comparação, o DALL-E ignora essas nuances e muitas vezes até se recusa a colocar objetos na imagem que são indicados diretamente nas instruções.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *