O OpenAI desenvolveu a capacidade de gerar imagens precisas diretamente no ChatGPT. O novo recurso, chamado 4o Image Generation, baseia-se no modelo de linguagem multimodal de larga escala GPT-4o. Ele entende contexto, instruções complexas, interações de objetos e até mesmo gera rótulos de texto sem artefatos. O acesso será aberto a todos hoje.
Fonte da imagem: OpenAI
O ChatGPT já era capaz de gerar imagens usando a rede neural Dall-E 3. No entanto, a função atualizada funciona muito melhor e com mais precisão. A porta-voz da OpenAI, Taya Christianson, esclareceu que os limites para usuários gratuitos permanecerão os mesmos do DALL-E, que é de três imagens por dia. O DALL-E ainda pode ser acessado pela interface de usuário do ChatGPT.
Como observou o chefe de pesquisa Gabriel Goh, o uso do GPT-4o permite que a IA trabalhe com qualquer tipo de dado: texto, imagens, áudio e vídeo. Além disso, Sora recebeu uma melhoria fundamental no relacionamento correto entre atributos e objetos (vinculação). Go explicou que a maioria das IAs fica confusa ao processar de 5 a 8 elementos. Por exemplo, uma IA pode ser solicitada a desenhar uma estrela azul e um triângulo vermelho, mas produzir uma estrela vermelha e algo diferente de um triângulo. 4o A Geração de Imagens manipula de 15 a 20 objetos sem erros.
Os usuários também notarão melhorias na renderização de texto, permitindo que as imagens gerem texto legível e sem erros de digitação. Nas ferramentas de geração de imagens existentes, o texto costumava ser corrompido e obter uma renderização de qualidade nesse sentido era um grande desafio, pois até mesmo pequenos erros em títulos ou elementos de texto podiam tornar a imagem inteira completamente inutilizável.
Gerado pela solicitação “faça um risograma bem colorido sobre como fazer matcha”
O sistema agora também usa um método de geração não padrão. As imagens são criadas sequencialmente, da esquerda para a direita e de cima para baixo, em vez de uma só peça, como é o caso em DALL-E. De acordo com Go, isso explica a superioridade do 4o Image Generation no tratamento de texto e cenas complexas.
A OpenAI demonstrou os recursos do 4o Image Generation em diagramas científicos, como o experimento do prisma de Newton, histórias em quadrinhos e pôsteres. Também foram mostradas aplicações práticas na criação de imagens com fundos transparentes para adesivos, cardápios de restaurantes e logotipos. 4o Geração de Imagens concluiu todas as tarefas com sucesso, sem cometer nenhum erro no texto.
O 4o Image Generation também é capaz de editar imagens enviadas pelo usuário com base em solicitações simples, adicionando elementos a elas ou removendo-as.
Exemplo de adição de elementos a uma foto usando GPT-4o
No entanto, o novo sistema leva mais tempo para gerar imagens do que os anteriores, mas a OpenAI considera isso uma compensação que vale a pena. “Embora definitivamente tenhamos espaço para melhorar os tempos de resposta, a qualidade dessas imagens, as capacidades e o conhecimento do mundo realmente compensam os segundos extras de espera”, disse a empresa.
Quando questionada sobre medidas de segurança, citando os controversos deepfakes de Taylor Swift criados usando o modelo da Microsoft, a capacidade de Grok da xAI de retratar Kamala Harris com uma arma e a remoção da marca d’água do Google Gemini, a equipe da OpenAI enfatizou os mecanismos robustos em vigor para proteção contra abusos.
A diretora de design da OpenAI, Jackie Shannon, disse que a ferramenta impede a remoção de marcas d’água, bloqueia a geração de deepfakes relacionados ao corpo humano e nega solicitações para a criação de material de abuso infantil (CSAM). Além disso, Shannon explicou que todas as imagens geradas incluirão metadados C2PA padrão para marcar a imagem como sendo criada pela OpenAI.
Com um conjunto de módulos de memória de capacidade média ficando mais caro do que…
Pouco antes do último fim de semana, Hideki Sato, um pioneiro dos consoles de jogos…
Segundo uma reportagem recente da Bloomberg, a Sony está considerando adiar o lançamento do seu…
Como parte de sua estratégia de desenvolvimento atualizada, a Intel confirmou seus planos de lançar…
Uma demo de Darkhaven, um RPG de ação e fantasia sombria de nova geração da…
Inúmeros usuários relataram que a rede social X estava indisponível. Os relatos de problemas começaram…