Nos últimos dois anos, os geradores de imagens baseados em IA tornaram-se quase uma ocorrência diária e, à primeira vista, eles não diferem tanto uns dos outros em operação. Mas a Meta* afirma que o novo modelo CM3Leon desenvolvido pelos engenheiros da empresa é um avanço.
Fonte da imagem: Meta*
A diferença entre o modelo Meta * CM3Leon, como dizem os desenvolvedores, é o alto desempenho na conversão de texto em imagem. Além disso, este é um dos primeiros modelos que prevê a operação inversa – a criação de legendas para as imagens. A maioria dos geradores de imagens modernos, incluindo OpenAI DALL-E, Google Imagen e Stable Diffusion, usam difusão para criar imagens – o processo de remover gradualmente o ruído da imagem original conforme ela se aproxima do objetivo. O resultado é convincente, mas esse algoritmo requer recursos computacionais significativos, o que torna a operação desses sistemas cara, os próprios modelos são lentos e simplesmente não podem funcionar em tempo real.
Editando a imagem original: mude a garota para um homem barbudo, adicione óculos, aumente a idade, pinte o rosto
O modelo CM3Leon opera de forma fundamentalmente diferente – é baseado em um algoritmo de transformação que avalia a relevância dos dados de origem, seja texto ou imagem. Vale ressaltar que o OpenAI originalmente construiu geradores de imagens com base em modelos de transformadores, mas o Image GPT foi substituído por algoritmos de difusão. Ao treinar o CM3Leon, foram usadas 2 milhões de imagens licenciadas da Shutterstock – a versão mais poderosa do modelo tem 7 bilhões de parâmetros – o dobro do OpenAI DALL-E 2. Por fim, ele usa o mecanismo SFT (Supervised Fine-Tuning), que geralmente são geradores de texto. Como resultado, o desempenho do modelo aumentou ao gerar imagens e compilar descrições para imagens finalizadas, e o sistema ganhou a capacidade de editar imagens usando comandos de texto, por exemplo,
Geração de interiores com objetos para os quais as coordenadas exatas são especificadas
Como resultado, o Meta* CM3Leon aceita comandos muito específicos como dados iniciais – até a área da imagem em pixels que um objeto deve ser localizado. Para comparação, o DALL-E ignora essas nuances e muitas vezes até se recusa a colocar objetos na imagem que são indicados diretamente nas instruções.
* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal tomou uma decisão final para liquidar ou proibir atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.
Na Computex 2026, os chips Nova Lake foram o assunto mais importante relacionado à Intel,…
A Graid Technology revelou seus planos futuros para a tecnologia VROC, adquirida da Intel em…
Nenhuma placa gráfica está imune aos aumentos de preço causados pela escassez de memória, e…
Nenhuma placa gráfica está imune aos aumentos de preço causados pela escassez de memória, e…
A startup francesa de inteligência artificial Mistral AI está em negociações preliminares para levantar cerca…
Um desenvolvedor sob o pseudônimo de YusufB5 publicou uma solução de software original, o ASCILINE…