OpenAI introduziu uma nova versão do gerador de imagens DALL-E e anunciou planos para integrá-lo ao ChatGPT. Os desenvolvedores relatam que o DALL-E 3 pode “compreender consultas significativamente melhor”, analisar instruções complexas e gerar “imagens extremamente detalhadas e precisas” em comparação com o DALL-E 2.
«Os geradores de imagens modernos tendem a ignorar palavras ou descrições, forçando os usuários a aprender engenharia imediata. O DALL-E 3 representa um avanço em nossa capacidade de criar imagens que correspondam exatamente à consulta que você fornece”, afirma OpenAI em sua descrição do novo gerador de imagens.
O modelo também lida melhor com pequenos detalhes difíceis para a inteligência artificial, como mãos humanas. Mesmo com as mesmas consultas, os resultados do DALL-E 3 são muito melhores que os do DALL-E 2, observam os desenvolvedores. O DALL-E 3 será capaz de exibir com precisão uma cena com objetos específicos e como eles se relacionam entre si, conforme mostrado na imagem abaixo.
A OpenAI planeja incorporar o DALL-E 3 no ChatGPT Plus e no chatbot Enterprise em um futuro próximo. Combinar as habilidades linguísticas de um chatbot com um gerador de imagens permitirá criar imagens ainda mais precisas e proporcionará ainda mais oportunidades para ajustar a solicitação caso o primeiro resultado recebido não seja o que o usuário esperava.
«Quando solicitado, o ChatGPT gerará automaticamente prompts personalizados e detalhados para o DALL-E 3 criar uma imagem. Se o usuário gostar da imagem resultante, mas ela não refletir com precisão a consulta, então alterações podem ser feitas adicionando apenas algumas palavras adicionais de esclarecimento”, diz OpenAI.
DALL-E 3 está atualmente em pré-visualização de pesquisa e estará disponível para assinantes ChatGPT Plus e Enterprise em outubro via API. Recorde-se que a utilização do DALL-E 2 é paga, sendo que a assinatura mensal do mesmo ChatGPT Plus custa $20. Atualmente, o único grande chatbot de IA que oferece um gerador de imagens integrado gratuito é o Bing Chat AI da Microsoft. A propósito, funciona com base no poderoso modelo de linguagem GPT-4 da OpenAI.
«Assim como no DALL-E 2, as imagens geradas com o DALL-E 3 serão de propriedade do usuário e não exigirão permissão para reimprimi-las, vendê-las ou distribuí-las”, esclarece OpenAI.
A empresa destacou ainda que o DALL-E 3 inclui ferramentas que limitam a criação de determinadas imagens. Por exemplo, o gerador de imagens rejeitará solicitações com nomes de figuras públicas ou “preconceitos prejudiciais” para reduzir o risco de propagação de propaganda e desinformação. Os desenvolvedores também estão testando um classificador de proveniência, uma ferramenta que determinará se uma imagem foi gerada por uma rede neural. Por fim, o DALL-E não gerará imagens no estilo de viver e criar artistas.
As remessas globais de headsets de realidade virtual (VR) e realidade aumentada (AR) estão caindo…
Após o anúncio surpresa de que o jogo de tiro Resident Evil Village (e três…
A Amazon anunciou que as instâncias Amazon EC2 M2 Pro Mac, baseadas em minicomputadores Apple…
O Ministério do Interior alemão planeia proibir a utilização de componentes críticos produzidos pela Huawei…
Como esperado, em 20 de setembro, depois das 18h, horário de Moscou, os sites agregadores…
Uma análise da aclamada plataforma de smartphones Mate 60 Pro mostra que a Huawei fez…