Meta anuncia o poderoso gerador de imagens AI CM3Leon com suporte para comandos de edição precisos

Nos últimos dois anos, os geradores de imagens baseados em IA tornaram-se quase uma ocorrência diária e, à primeira vista, eles não diferem tanto uns dos outros em operação. Mas a Meta* afirma que o novo modelo CM3Leon desenvolvido pelos engenheiros da empresa é um avanço.

Fonte da imagem: Meta*

A diferença entre o modelo Meta * CM3Leon, como dizem os desenvolvedores, é o alto desempenho na conversão de texto em imagem. Além disso, este é um dos primeiros modelos que prevê a operação inversa – a criação de legendas para as imagens. A maioria dos geradores de imagens modernos, incluindo OpenAI DALL-E, Google Imagen e Stable Diffusion, usam difusão para criar imagens – o processo de remover gradualmente o ruído da imagem original conforme ela se aproxima do objetivo. O resultado é convincente, mas esse algoritmo requer recursos computacionais significativos, o que torna a operação desses sistemas cara, os próprios modelos são lentos e simplesmente não podem funcionar em tempo real.

Editando a imagem original: mude a garota para um homem barbudo, adicione óculos, aumente a idade, pinte o rosto

O modelo CM3Leon opera de forma fundamentalmente diferente – é baseado em um algoritmo de transformação que avalia a relevância dos dados de origem, seja texto ou imagem. Vale ressaltar que o OpenAI originalmente construiu geradores de imagens com base em modelos de transformadores, mas o Image GPT foi substituído por algoritmos de difusão. Ao treinar o CM3Leon, foram usadas 2 milhões de imagens licenciadas da Shutterstock – a versão mais poderosa do modelo tem 7 bilhões de parâmetros – o dobro do OpenAI DALL-E 2. Por fim, ele usa o mecanismo SFT (Supervised Fine-Tuning), que geralmente são geradores de texto. Como resultado, o desempenho do modelo aumentou ao gerar imagens e compilar descrições para imagens finalizadas, e o sistema ganhou a capacidade de editar imagens usando comandos de texto, por exemplo,

Geração de interiores com objetos para os quais as coordenadas exatas são especificadas

Como resultado, o Meta* CM3Leon aceita comandos muito específicos como dados iniciais – até a área da imagem em pixels que um objeto deve ser localizado. Para comparação, o DALL-E ignora essas nuances e muitas vezes até se recusa a colocar objetos na imagem que são indicados diretamente nas instruções.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

Novo recurso do Google Android facilita a transferência de dados ao trocar de dispositivo

O Google introduziu um novo recurso para Android, Restaurar credenciais, que simplificará bastante o processo…

41 minutos atrás

O Google está pronto para cancelar permanentemente o desenvolvimento do tablet Pixel Tablet 3

O Google parece estar novamente congelando sua presença no mercado na categoria de tablets, saindo…

1 hora atrás

OpenAI está tentando entrar no mercado de navegadores de Internet e motores de busca

A empresa relativamente jovem OpenAI pode tentar desafiar o Google no segmento de mercado onde…

2 horas atrás

Apple vai ensinar Siri a suportar melhor diálogos com o usuário

O assistente de voz Siri era considerado bastante avançado na época em que entrou no…

3 horas atrás

Nvidia alertou sobre uma possível escassez de soluções de jogos no quarto trimestre

Não a notícia mais divulgada após o relatório trimestral da Nvidia foi a declaração do…

5 horas atrás