OpenAI introduziu uma nova rede neural, Sora, para geração de vídeo. A empresa diz que Sora “pode criar cenas realistas e de fantasia usando instruções de texto”. O modelo de conversão de texto em vídeo permite aos usuários criar vídeos fotorrealistas de até um minuto com resolução Full HD (1920 × 1080 pixels) com base em descrições de texto.

Fonte da imagem: OpenAI

Sora é capaz de criar “cenas complexas com vários personagens, tipos específicos de movimento e objetos precisos e detalhes de fundo”, disse a OpenAI em um post no blog. A empresa também observa que a rede neural pode entender como os objetos “existem no mundo físico”, bem como “interpretar adereços com precisão e gerar personagens atraentes que expressam emoções poderosas”.

O modelo pode gerar vídeo a partir de uma imagem estática, preencher quadros ausentes em um vídeo existente ou estendê-lo. As demonstrações criadas com Sora e apresentadas no blog da OpenAI incluem uma cena da Corrida do Ouro na Califórnia, um vídeo do que parece ser o interior de um trem de Tóquio e muito mais. Muitos deles possuem alguns artefatos que indicam o trabalho da inteligência artificial. Por exemplo, o piso suspeito em movimento no vídeo sobre o museu. A própria OpenAI diz que o modelo “pode ter dificuldade em simular com precisão a física de uma cena complexa”, mas no geral os resultados são bastante impressionantes.

Há alguns anos, foram os geradores de texto para imagem, como o Midjourney, que melhor demonstraram a capacidade da IA ​​de transformar palavras em imagens. Mas o vídeo generativo tem melhorado a um ritmo notável ultimamente, com empresas como Runway e Pika exibindo modelos impressionantes de conversão de texto em vídeo, e a Lumiere do Google parece destinada a se tornar um dos principais concorrentes da OpenAI neste espaço. Assim como o Sora, o Lumiere fornece aos usuários ferramentas para converter texto em vídeo e também permite aos usuários criar vídeos a partir de uma imagem estática.

Atualmente, Sora está disponível apenas para testadores individuais que avaliam o modelo quanto a possíveis danos e riscos. OpenAI também oferece acesso sob demanda para artistas, designers e cineastas individuais receberem feedback. A empresa observa que o modelo existente pode não simular com precisão a física de uma cena complexa e pode interpretar mal alguns casos de relações de causa e efeito.

No início deste mês, a OpenAI anunciou que estava adicionando marcações à sua ferramenta de conversão de texto em imagem DALL-E 3, mas observou que elas podem ser facilmente removidas. Tal como acontece com outros produtos de IA, a OpenAI terá que enfrentar as consequências de vídeos falsos fotorrealistas gerados por IA serem considerados reais.

Mais vídeos gerados por Sora podem ser encontrados aqui.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *