OpenAI revela recurso de geração de imagem precisa no ChatGPT com tecnologia GPT-4o — disponível gratuitamente

O OpenAI desenvolveu a capacidade de gerar imagens precisas diretamente no ChatGPT. O novo recurso, chamado 4o Image Generation, baseia-se no modelo de linguagem multimodal de larga escala GPT-4o. Ele entende contexto, instruções complexas, interações de objetos e até mesmo gera rótulos de texto sem artefatos. O acesso será aberto a todos hoje.

Fonte da imagem: OpenAI

O ChatGPT já era capaz de gerar imagens usando a rede neural Dall-E 3. No entanto, a função atualizada funciona muito melhor e com mais precisão. A porta-voz da OpenAI, Taya Christianson, esclareceu que os limites para usuários gratuitos permanecerão os mesmos do DALL-E, que é de três imagens por dia. O DALL-E ainda pode ser acessado pela interface de usuário do ChatGPT.

Como observou o chefe de pesquisa Gabriel Goh, o uso do GPT-4o permite que a IA trabalhe com qualquer tipo de dado: texto, imagens, áudio e vídeo. Além disso, Sora recebeu uma melhoria fundamental no relacionamento correto entre atributos e objetos (vinculação). Go explicou que a maioria das IAs fica confusa ao processar de 5 a 8 elementos. Por exemplo, uma IA pode ser solicitada a desenhar uma estrela azul e um triângulo vermelho, mas produzir uma estrela vermelha e algo diferente de um triângulo. 4o A Geração de Imagens manipula de 15 a 20 objetos sem erros.

Os usuários também notarão melhorias na renderização de texto, permitindo que as imagens gerem texto legível e sem erros de digitação. Nas ferramentas de geração de imagens existentes, o texto costumava ser corrompido e obter uma renderização de qualidade nesse sentido era um grande desafio, pois até mesmo pequenos erros em títulos ou elementos de texto podiam tornar a imagem inteira completamente inutilizável.

Gerado pela solicitação “faça um risograma bem colorido sobre como fazer matcha”

O sistema agora também usa um método de geração não padrão. As imagens são criadas sequencialmente, da esquerda para a direita e de cima para baixo, em vez de uma só peça, como é o caso em DALL-E. De acordo com Go, isso explica a superioridade do 4o Image Generation no tratamento de texto e cenas complexas.

A OpenAI demonstrou os recursos do 4o Image Generation em diagramas científicos, como o experimento do prisma de Newton, histórias em quadrinhos e pôsteres. Também foram mostradas aplicações práticas na criação de imagens com fundos transparentes para adesivos, cardápios de restaurantes e logotipos. 4o Geração de Imagens concluiu todas as tarefas com sucesso, sem cometer nenhum erro no texto.

O 4o Image Generation também é capaz de editar imagens enviadas pelo usuário com base em solicitações simples, adicionando elementos a elas ou removendo-as.

Exemplo de adição de elementos a uma foto usando GPT-4o

No entanto, o novo sistema leva mais tempo para gerar imagens do que os anteriores, mas a OpenAI considera isso uma compensação que vale a pena. “Embora definitivamente tenhamos espaço para melhorar os tempos de resposta, a qualidade dessas imagens, as capacidades e o conhecimento do mundo realmente compensam os segundos extras de espera”, disse a empresa.

Quando questionada sobre medidas de segurança, citando os controversos deepfakes de Taylor Swift criados usando o modelo da Microsoft, a capacidade de Grok da xAI de retratar Kamala Harris com uma arma e a remoção da marca d’água do Google Gemini, a equipe da OpenAI enfatizou os mecanismos robustos em vigor para proteção contra abusos.

A diretora de design da OpenAI, Jackie Shannon, disse que a ferramenta impede a remoção de marcas d’água, bloqueia a geração de deepfakes relacionados ao corpo humano e nega solicitações para a criação de material de abuso infantil (CSAM). Além disso, Shannon explicou que todas as imagens geradas incluirão metadados C2PA padrão para marcar a imagem como sendo criada pela OpenAI.

avalanche

Postagens recentes

A Honda registrou prejuízo pela primeira vez desde 1957, já que sua estratégia de veículos elétricos se mostrou contraproducente.

A montadora japonesa Honda Motor anunciou seu primeiro prejuízo operacional desde sua abertura de capital…

54 minutos atrás

O valor de mercado da Take-Two aumentou em quase US$ 3 bilhões em meio a rumores de que as pré-vendas de GTA VI estão prestes a começar.

Os rumores sobre o lançamento iminente da pré-venda do ambicioso thriller de mundo aberto e…

1 hora atrás

A China criou um computador quântico fotônico que os supercomputadores não conseguem alcançar, nem mesmo durante a existência do universo.

Cientistas chineses criaram uma nova versão do computador quântico fotônico Jiuzhang, apresentado pela primeira vez…

2 horas atrás

A Microsoft está preparando um controle Xbox Elite Series 3 de última geração com volante e Wi-Fi.

A Anatel, agência reguladora brasileira, divulgou imagens do próximo controle Xbox Elite, que apresenta diversas…

2 horas atrás

As vendas do sucesso pirata Windrose ultrapassaram dois milhões de cópias em um mês no Acesso Antecipado do Steam.

Os desenvolvedores do estúdio uzbeque Kraken Express relataram novos sucessos para seu simulador de sobrevivência…

3 horas atrás