Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

OpenAI revela recurso de geração de imagem precisa no ChatGPT com tecnologia GPT-4o — disponível gratuitamente

O OpenAI desenvolveu a capacidade de gerar imagens precisas diretamente no ChatGPT. O novo recurso, chamado 4o Image Generation, baseia-se no modelo de linguagem multimodal de larga escala GPT-4o. Ele entende contexto, instruções complexas, interações de objetos e até mesmo gera rótulos de texto sem artefatos. O acesso será aberto a todos hoje.

Fonte da imagem: OpenAI

O ChatGPT já era capaz de gerar imagens usando a rede neural Dall-E 3. No entanto, a função atualizada funciona muito melhor e com mais precisão. A porta-voz da OpenAI, Taya Christianson, esclareceu que os limites para usuários gratuitos permanecerão os mesmos do DALL-E, que é de três imagens por dia. O DALL-E ainda pode ser acessado pela interface de usuário do ChatGPT.

Como observou o chefe de pesquisa Gabriel Goh, o uso do GPT-4o permite que a IA trabalhe com qualquer tipo de dado: texto, imagens, áudio e vídeo. Além disso, Sora recebeu uma melhoria fundamental no relacionamento correto entre atributos e objetos (vinculação). Go explicou que a maioria das IAs fica confusa ao processar de 5 a 8 elementos. Por exemplo, uma IA pode ser solicitada a desenhar uma estrela azul e um triângulo vermelho, mas produzir uma estrela vermelha e algo diferente de um triângulo. 4o A Geração de Imagens manipula de 15 a 20 objetos sem erros.

Os usuários também notarão melhorias na renderização de texto, permitindo que as imagens gerem texto legível e sem erros de digitação. Nas ferramentas de geração de imagens existentes, o texto costumava ser corrompido e obter uma renderização de qualidade nesse sentido era um grande desafio, pois até mesmo pequenos erros em títulos ou elementos de texto podiam tornar a imagem inteira completamente inutilizável.

Gerado pela solicitação “faça um risograma bem colorido sobre como fazer matcha”

O sistema agora também usa um método de geração não padrão. As imagens são criadas sequencialmente, da esquerda para a direita e de cima para baixo, em vez de uma só peça, como é o caso em DALL-E. De acordo com Go, isso explica a superioridade do 4o Image Generation no tratamento de texto e cenas complexas.

A OpenAI demonstrou os recursos do 4o Image Generation em diagramas científicos, como o experimento do prisma de Newton, histórias em quadrinhos e pôsteres. Também foram mostradas aplicações práticas na criação de imagens com fundos transparentes para adesivos, cardápios de restaurantes e logotipos. 4o Geração de Imagens concluiu todas as tarefas com sucesso, sem cometer nenhum erro no texto.

O 4o Image Generation também é capaz de editar imagens enviadas pelo usuário com base em solicitações simples, adicionando elementos a elas ou removendo-as.

Exemplo de adição de elementos a uma foto usando GPT-4o

No entanto, o novo sistema leva mais tempo para gerar imagens do que os anteriores, mas a OpenAI considera isso uma compensação que vale a pena. “Embora definitivamente tenhamos espaço para melhorar os tempos de resposta, a qualidade dessas imagens, as capacidades e o conhecimento do mundo realmente compensam os segundos extras de espera”, disse a empresa.

Quando questionada sobre medidas de segurança, citando os controversos deepfakes de Taylor Swift criados usando o modelo da Microsoft, a capacidade de Grok da xAI de retratar Kamala Harris com uma arma e a remoção da marca d’água do Google Gemini, a equipe da OpenAI enfatizou os mecanismos robustos em vigor para proteção contra abusos.

A diretora de design da OpenAI, Jackie Shannon, disse que a ferramenta impede a remoção de marcas d’água, bloqueia a geração de deepfakes relacionados ao corpo humano e nega solicitações para a criação de material de abuso infantil (CSAM). Além disso, Shannon explicou que todas as imagens geradas incluirão metadados C2PA padrão para marcar a imagem como sendo criada pela OpenAI.

avalanche

Próximo NVIDIA compartilhará NVLink Interconnect com MediaTek para ASICs personalizados »

Anterior « CD Projekt confirma quando The Witcher 4 será lançado — não antes de 2027

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Comentários sobre eventos recentes

A OpenAI decidiu repentinamente gastar mais de cem milhões de dólares para comprar um programa de entrevistas popular.

Ao que tudo indicava, o abandono de áreas de desenvolvimento secundárias, incluindo o fim do…

59 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O Google lançou a família de modelos de código aberto Gemma 4, que oferece suporte a 140 idiomas e é licenciada sob a licença Apache 2.0.

O Google apresentou quatro modelos de código aberto do Gemini 4, baseados na tecnologia do…

4 horas atrás

A IBM está criando laços entre mainframes e arquiteturas Arm, mas parece não entender completamente o porquê.

A IBM anunciou uma colaboração estratégica com a Arm para "desenvolver um novo hardware de…

7 horas atrás

Redes e comunicações

O Caminho Óctuplo para a IAG: Do Falso Nirvana ao Verdadeiro Nirvana / Inteligência Artificial

Qualquer pessoa não budista que tenha ao menos vagamente ouvido falar desse antigo ensinamento sabe…

9 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Microsoft AI revelou três modelos de IA próprios para geração de texto, voz e imagens.

A divisão de pesquisa em IA da Microsoft revelou três novos modelos de inteligência artificial…

9 horas atrás

Jogos

Piratas derrotam Denuvo: jogos agora podem ser crackeados no dia do lançamento, mas desenvolvedora promete novas medidas.

Nas últimas semanas, uma parte significativa da internet dedicada a jogos e pirataria foi tomada…

9 horas atrás

OpenAI revela recurso de geração de imagem precisa no ChatGPT com tecnologia GPT-4o — disponível gratuitamente

Conteúdo relacionado

Postagens recentes

A OpenAI decidiu repentinamente gastar mais de cem milhões de dólares para comprar um programa de entrevistas popular.

O Google lançou a família de modelos de código aberto Gemma 4, que oferece suporte a 140 idiomas e é licenciada sob a licença Apache 2.0.

A IBM está criando laços entre mainframes e arquiteturas Arm, mas parece não entender completamente o porquê.

O Caminho Óctuplo para a IAG: Do Falso Nirvana ao Verdadeiro Nirvana / Inteligência Artificial

A Microsoft AI revelou três modelos de IA próprios para geração de texto, voz e imagens.

Piratas derrotam Denuvo: jogos agora podem ser crackeados no dia do lançamento, mas desenvolvedora promete novas medidas.