O OpenAI desenvolveu a capacidade de gerar imagens precisas diretamente no ChatGPT. O novo recurso, chamado 4o Image Generation, baseia-se no modelo de linguagem multimodal de larga escala GPT-4o. Ele entende contexto, instruções complexas, interações de objetos e até mesmo gera rótulos de texto sem artefatos. O acesso será aberto a todos hoje.
Fonte da imagem: OpenAI
O ChatGPT já era capaz de gerar imagens usando a rede neural Dall-E 3. No entanto, a função atualizada funciona muito melhor e com mais precisão. A porta-voz da OpenAI, Taya Christianson, esclareceu que os limites para usuários gratuitos permanecerão os mesmos do DALL-E, que é de três imagens por dia. O DALL-E ainda pode ser acessado pela interface de usuário do ChatGPT.
Como observou o chefe de pesquisa Gabriel Goh, o uso do GPT-4o permite que a IA trabalhe com qualquer tipo de dado: texto, imagens, áudio e vídeo. Além disso, Sora recebeu uma melhoria fundamental no relacionamento correto entre atributos e objetos (vinculação). Go explicou que a maioria das IAs fica confusa ao processar de 5 a 8 elementos. Por exemplo, uma IA pode ser solicitada a desenhar uma estrela azul e um triângulo vermelho, mas produzir uma estrela vermelha e algo diferente de um triângulo. 4o A Geração de Imagens manipula de 15 a 20 objetos sem erros.
Os usuários também notarão melhorias na renderização de texto, permitindo que as imagens gerem texto legível e sem erros de digitação. Nas ferramentas de geração de imagens existentes, o texto costumava ser corrompido e obter uma renderização de qualidade nesse sentido era um grande desafio, pois até mesmo pequenos erros em títulos ou elementos de texto podiam tornar a imagem inteira completamente inutilizável.
Gerado pela solicitação “faça um risograma bem colorido sobre como fazer matcha”
O sistema agora também usa um método de geração não padrão. As imagens são criadas sequencialmente, da esquerda para a direita e de cima para baixo, em vez de uma só peça, como é o caso em DALL-E. De acordo com Go, isso explica a superioridade do 4o Image Generation no tratamento de texto e cenas complexas.
A OpenAI demonstrou os recursos do 4o Image Generation em diagramas científicos, como o experimento do prisma de Newton, histórias em quadrinhos e pôsteres. Também foram mostradas aplicações práticas na criação de imagens com fundos transparentes para adesivos, cardápios de restaurantes e logotipos. 4o Geração de Imagens concluiu todas as tarefas com sucesso, sem cometer nenhum erro no texto.
O 4o Image Generation também é capaz de editar imagens enviadas pelo usuário com base em solicitações simples, adicionando elementos a elas ou removendo-as.
Exemplo de adição de elementos a uma foto usando GPT-4o
No entanto, o novo sistema leva mais tempo para gerar imagens do que os anteriores, mas a OpenAI considera isso uma compensação que vale a pena. “Embora definitivamente tenhamos espaço para melhorar os tempos de resposta, a qualidade dessas imagens, as capacidades e o conhecimento do mundo realmente compensam os segundos extras de espera”, disse a empresa.
Quando questionada sobre medidas de segurança, citando os controversos deepfakes de Taylor Swift criados usando o modelo da Microsoft, a capacidade de Grok da xAI de retratar Kamala Harris com uma arma e a remoção da marca d’água do Google Gemini, a equipe da OpenAI enfatizou os mecanismos robustos em vigor para proteção contra abusos.
A diretora de design da OpenAI, Jackie Shannon, disse que a ferramenta impede a remoção de marcas d’água, bloqueia a geração de deepfakes relacionados ao corpo humano e nega solicitações para a criação de material de abuso infantil (CSAM). Além disso, Shannon explicou que todas as imagens geradas incluirão metadados C2PA padrão para marcar a imagem como sendo criada pela OpenAI.