OpenAI introduziu uma nova versão do gerador de imagens DALL-E e anunciou planos para integrá-lo ao ChatGPT. Os desenvolvedores relatam que o DALL-E 3 pode “compreender consultas significativamente melhor”, analisar instruções complexas e gerar “imagens extremamente detalhadas e precisas” em comparação com o DALL-E 2.
«Os geradores de imagens modernos tendem a ignorar palavras ou descrições, forçando os usuários a aprender engenharia imediata. O DALL-E 3 representa um avanço em nossa capacidade de criar imagens que correspondam exatamente à consulta que você fornece”, afirma OpenAI em sua descrição do novo gerador de imagens.
O modelo também lida melhor com pequenos detalhes difíceis para a inteligência artificial, como mãos humanas. Mesmo com as mesmas consultas, os resultados do DALL-E 3 são muito melhores que os do DALL-E 2, observam os desenvolvedores. O DALL-E 3 será capaz de exibir com precisão uma cena com objetos específicos e como eles se relacionam entre si, conforme mostrado na imagem abaixo.
A OpenAI planeja incorporar o DALL-E 3 no ChatGPT Plus e no chatbot Enterprise em um futuro próximo. Combinar as habilidades linguísticas de um chatbot com um gerador de imagens permitirá criar imagens ainda mais precisas e proporcionará ainda mais oportunidades para ajustar a solicitação caso o primeiro resultado recebido não seja o que o usuário esperava.
«Quando solicitado, o ChatGPT gerará automaticamente prompts personalizados e detalhados para o DALL-E 3 criar uma imagem. Se o usuário gostar da imagem resultante, mas ela não refletir com precisão a consulta, então alterações podem ser feitas adicionando apenas algumas palavras adicionais de esclarecimento”, diz OpenAI.
DALL-E 3 está atualmente em pré-visualização de pesquisa e estará disponível para assinantes ChatGPT Plus e Enterprise em outubro via API. Recorde-se que a utilização do DALL-E 2 é paga, sendo que a assinatura mensal do mesmo ChatGPT Plus custa $20. Atualmente, o único grande chatbot de IA que oferece um gerador de imagens integrado gratuito é o Bing Chat AI da Microsoft. A propósito, funciona com base no poderoso modelo de linguagem GPT-4 da OpenAI.
«Assim como no DALL-E 2, as imagens geradas com o DALL-E 3 serão de propriedade do usuário e não exigirão permissão para reimprimi-las, vendê-las ou distribuí-las”, esclarece OpenAI.
A empresa destacou ainda que o DALL-E 3 inclui ferramentas que limitam a criação de determinadas imagens. Por exemplo, o gerador de imagens rejeitará solicitações com nomes de figuras públicas ou “preconceitos prejudiciais” para reduzir o risco de propagação de propaganda e desinformação. Os desenvolvedores também estão testando um classificador de proveniência, uma ferramenta que determinará se uma imagem foi gerada por uma rede neural. Por fim, o DALL-E não gerará imagens no estilo de viver e criar artistas.
Na próxima semana, a Intel apresentará a primeira nova geração de placas de vídeo, codinome…
A editora Focus Entertainment e os desenvolvedores do estúdio Sabre Interactive compartilharam detalhes do próximo…
Os pesquisadores da ESET relataram o primeiro bootkit UEFI direcionado a sistemas Linux. Anteriormente, os…
A 8BitDo lançou uma nova versão de seu teclado mecânico retrô, inspirado no console de…
Nos últimos quase 10 anos desde o lançamento do jogo de ação gótico Bloodborne do…
Os desenvolvedores do estúdio Riot Games estão tão confiantes em seu anti-cheat Vanguard, que funciona…