OpenAI revela recurso de geração de imagem precisa no ChatGPT com tecnologia GPT-4o — disponível gratuitamente

O OpenAI desenvolveu a capacidade de gerar imagens precisas diretamente no ChatGPT. O novo recurso, chamado 4o Image Generation, baseia-se no modelo de linguagem multimodal de larga escala GPT-4o. Ele entende contexto, instruções complexas, interações de objetos e até mesmo gera rótulos de texto sem artefatos. O acesso será aberto a todos hoje.

Fonte da imagem: OpenAI

O ChatGPT já era capaz de gerar imagens usando a rede neural Dall-E 3. No entanto, a função atualizada funciona muito melhor e com mais precisão. A porta-voz da OpenAI, Taya Christianson, esclareceu que os limites para usuários gratuitos permanecerão os mesmos do DALL-E, que é de três imagens por dia. O DALL-E ainda pode ser acessado pela interface de usuário do ChatGPT.

Como observou o chefe de pesquisa Gabriel Goh, o uso do GPT-4o permite que a IA trabalhe com qualquer tipo de dado: texto, imagens, áudio e vídeo. Além disso, Sora recebeu uma melhoria fundamental no relacionamento correto entre atributos e objetos (vinculação). Go explicou que a maioria das IAs fica confusa ao processar de 5 a 8 elementos. Por exemplo, uma IA pode ser solicitada a desenhar uma estrela azul e um triângulo vermelho, mas produzir uma estrela vermelha e algo diferente de um triângulo. 4o A Geração de Imagens manipula de 15 a 20 objetos sem erros.

Os usuários também notarão melhorias na renderização de texto, permitindo que as imagens gerem texto legível e sem erros de digitação. Nas ferramentas de geração de imagens existentes, o texto costumava ser corrompido e obter uma renderização de qualidade nesse sentido era um grande desafio, pois até mesmo pequenos erros em títulos ou elementos de texto podiam tornar a imagem inteira completamente inutilizável.

Gerado pela solicitação “faça um risograma bem colorido sobre como fazer matcha”

O sistema agora também usa um método de geração não padrão. As imagens são criadas sequencialmente, da esquerda para a direita e de cima para baixo, em vez de uma só peça, como é o caso em DALL-E. De acordo com Go, isso explica a superioridade do 4o Image Generation no tratamento de texto e cenas complexas.

A OpenAI demonstrou os recursos do 4o Image Generation em diagramas científicos, como o experimento do prisma de Newton, histórias em quadrinhos e pôsteres. Também foram mostradas aplicações práticas na criação de imagens com fundos transparentes para adesivos, cardápios de restaurantes e logotipos. 4o Geração de Imagens concluiu todas as tarefas com sucesso, sem cometer nenhum erro no texto.

O 4o Image Generation também é capaz de editar imagens enviadas pelo usuário com base em solicitações simples, adicionando elementos a elas ou removendo-as.

Exemplo de adição de elementos a uma foto usando GPT-4o

No entanto, o novo sistema leva mais tempo para gerar imagens do que os anteriores, mas a OpenAI considera isso uma compensação que vale a pena. “Embora definitivamente tenhamos espaço para melhorar os tempos de resposta, a qualidade dessas imagens, as capacidades e o conhecimento do mundo realmente compensam os segundos extras de espera”, disse a empresa.

Quando questionada sobre medidas de segurança, citando os controversos deepfakes de Taylor Swift criados usando o modelo da Microsoft, a capacidade de Grok da xAI de retratar Kamala Harris com uma arma e a remoção da marca d’água do Google Gemini, a equipe da OpenAI enfatizou os mecanismos robustos em vigor para proteção contra abusos.

A diretora de design da OpenAI, Jackie Shannon, disse que a ferramenta impede a remoção de marcas d’água, bloqueia a geração de deepfakes relacionados ao corpo humano e nega solicitações para a criação de material de abuso infantil (CSAM). Além disso, Shannon explicou que todas as imagens geradas incluirão metadados C2PA padrão para marcar a imagem como sendo criada pela OpenAI.

avalanche

Postagens recentes

A Valve permitiu que os desenvolvedores do Steam mantivessem sua IA oculta, mas apenas se os jogadores não a virem.

A Valve fez esclarecimentos importantes em sua política de publicação de jogos no Steam em…

2 horas atrás

O Ryzen 7 9800X3D continua a morrer misteriosamente: agora também em placas-mãe Asus.

Nas últimas duas semanas, pelo menos cinco publicações apareceram no Reddit relatando falhas em processadores…

2 horas atrás

A Microsoft lançou uma atualização de emergência para o Windows 11 para ajudar os PCs a serem desligados corretamente novamente.

A Microsoft foi obrigada a lançar uma atualização de emergência para o Windows 11, apenas…

3 horas atrás

O TikTok lançou uma espécie de “Netflix para a Geração Z” — um serviço de microdramas chamado PineDrama.

O TikTok lançou discretamente um novo aplicativo, o PineDrama, para microdramas — vídeos curtos na…

4 horas atrás

O Google Chrome agora permite que os usuários desativem a IA local para se protegerem contra fraudes.

Os usuários do Google Chrome agora podem desativar o modelo de IA executado localmente que…

5 horas atrás