Meta anuncia o poderoso gerador de imagens AI CM3Leon com suporte para comandos de edição precisos

Nos últimos dois anos, os geradores de imagens baseados em IA tornaram-se quase uma ocorrência diária e, à primeira vista, eles não diferem tanto uns dos outros em operação. Mas a Meta* afirma que o novo modelo CM3Leon desenvolvido pelos engenheiros da empresa é um avanço.

Fonte da imagem: Meta*

A diferença entre o modelo Meta * CM3Leon, como dizem os desenvolvedores, é o alto desempenho na conversão de texto em imagem. Além disso, este é um dos primeiros modelos que prevê a operação inversa – a criação de legendas para as imagens. A maioria dos geradores de imagens modernos, incluindo OpenAI DALL-E, Google Imagen e Stable Diffusion, usam difusão para criar imagens – o processo de remover gradualmente o ruído da imagem original conforme ela se aproxima do objetivo. O resultado é convincente, mas esse algoritmo requer recursos computacionais significativos, o que torna a operação desses sistemas cara, os próprios modelos são lentos e simplesmente não podem funcionar em tempo real.

Editando a imagem original: mude a garota para um homem barbudo, adicione óculos, aumente a idade, pinte o rosto

O modelo CM3Leon opera de forma fundamentalmente diferente – é baseado em um algoritmo de transformação que avalia a relevância dos dados de origem, seja texto ou imagem. Vale ressaltar que o OpenAI originalmente construiu geradores de imagens com base em modelos de transformadores, mas o Image GPT foi substituído por algoritmos de difusão. Ao treinar o CM3Leon, foram usadas 2 milhões de imagens licenciadas da Shutterstock – a versão mais poderosa do modelo tem 7 bilhões de parâmetros – o dobro do OpenAI DALL-E 2. Por fim, ele usa o mecanismo SFT (Supervised Fine-Tuning), que geralmente são geradores de texto. Como resultado, o desempenho do modelo aumentou ao gerar imagens e compilar descrições para imagens finalizadas, e o sistema ganhou a capacidade de editar imagens usando comandos de texto, por exemplo,

Geração de interiores com objetos para os quais as coordenadas exatas são especificadas

Como resultado, o Meta* CM3Leon aceita comandos muito específicos como dados iniciais – até a área da imagem em pixels que um objeto deve ser localizado. Para comparação, o DALL-E ignora essas nuances e muitas vezes até se recusa a colocar objetos na imagem que são indicados diretamente nas instruções.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

A Yandex está se preparando para um lançamento em massa de robotáxis e carros autônomos até 2028.

A Yandex planeja começar a comercializar veículos robóticos em 2028, tanto no setor de táxis…

20 minutos atrás

Golpistas começaram a disfarçar malware como código-fonte vazado do Anthropic Claude Code.

Esta semana, o código-fonte do serviço Claude Code da Anthropic vazou — a empresa tomou…

33 minutos atrás

A JEDEC permitirá o crescimento da memória HBM4E para simplificar a produção e reduzir custos.

A memória empilhada, chamada HBM, é considerada uma das mais rápidas do mercado, mas continua…

33 minutos atrás

Uma startup suíça transformou baterias usadas em baterias domésticas por assinatura.

A startup suíça Evolium Technologies, fundada em 2024 com o apoio da Associação Suíça de…

45 minutos atrás

Um modelo chinês do foguete reutilizável Falcon 9 da SpaceX explodiu no ar — ele era movido a querosene produzido a partir do carvão.

Hoje, às 12h17, horário de Pequim (7h17, horário de Moscou), o foguete experimental Tianlong-3, da…

2 horas atrás

A Oracle finalmente encontrou os recursos para construir outro centro de dados de IA OpenAI Stargate.

A Related Digital, investidora em data centers, está perto de fechar um acordo de US$…

2 horas atrás