OpenAI introduziu uma nova rede neural, Sora, para geração de vídeo. A empresa diz que Sora “pode criar cenas realistas e de fantasia usando instruções de texto”. O modelo de conversão de texto em vídeo permite aos usuários criar vídeos fotorrealistas de até um minuto com resolução Full HD (1920 × 1080 pixels) com base em descrições de texto.

Fonte da imagem: OpenAI

Sora é capaz de criar “cenas complexas com vários personagens, tipos específicos de movimento e objetos precisos e detalhes de fundo”, disse a OpenAI em um post no blog. A empresa também observa que a rede neural pode entender como os objetos “existem no mundo físico”, bem como “interpretar adereços com precisão e gerar personagens atraentes que expressam emoções poderosas”.

O modelo pode gerar vídeo a partir de uma imagem estática, preencher quadros ausentes em um vídeo existente ou estendê-lo. As demonstrações criadas com Sora e apresentadas no blog da OpenAI incluem uma cena da Corrida do Ouro na Califórnia, um vídeo do que parece ser o interior de um trem de Tóquio e muito mais. Muitos deles possuem alguns artefatos que indicam o trabalho da inteligência artificial. Por exemplo, o piso suspeito em movimento no vídeo sobre o museu. A própria OpenAI diz que o modelo “pode ter dificuldade em simular com precisão a física de uma cena complexa”, mas no geral os resultados são bastante impressionantes.

Há alguns anos, foram os geradores de texto para imagem, como o Midjourney, que melhor demonstraram a capacidade da IA ​​de transformar palavras em imagens. Mas o vídeo generativo tem melhorado a um ritmo notável ultimamente, com empresas como Runway e Pika exibindo modelos impressionantes de conversão de texto em vídeo, e a Lumiere do Google parece destinada a se tornar um dos principais concorrentes da OpenAI neste espaço. Assim como o Sora, o Lumiere fornece aos usuários ferramentas para converter texto em vídeo e também permite aos usuários criar vídeos a partir de uma imagem estática.

Atualmente, Sora está disponível apenas para testadores individuais que avaliam o modelo quanto a possíveis danos e riscos. OpenAI também oferece acesso sob demanda para artistas, designers e cineastas individuais receberem feedback. A empresa observa que o modelo existente pode não simular com precisão a física de uma cena complexa e pode interpretar mal alguns casos de relações de causa e efeito.

No início deste mês, a OpenAI anunciou que estava adicionando marcações à sua ferramenta de conversão de texto em imagem DALL-E 3, mas observou que elas podem ser facilmente removidas. Tal como acontece com outros produtos de IA, a OpenAI terá que enfrentar as consequências de vídeos falsos fotorrealistas gerados por IA serem considerados reais.

Mais vídeos gerados por Sora podem ser encontrados aqui.

avalanche

Postagens recentes

Um novo trailer de jogabilidade revelou a data de lançamento do ambicioso jogo de estratégia por turnos Warhammer 40.000: Mechanicus 2.

A editora Kasedo Games e a desenvolvedora francesa Bulwark Studios (Ixion) finalmente anunciaram a data…

48 minutos atrás

Se vamos nos divertir, que seja para valer: a TSMC elevou sua previsão de receita para a indústria de semicondutores para US$ 1,5 trilhão até 2030.

Nos últimos anos, muitos especialistas, incluindo a administração da TSMC, citaram US$ 1 trilhão como…

2 horas atrás

O Google está desenvolvendo um recurso para tradução simultânea de fala sem conexão com a internet.

O Google fez avanços significativos na tecnologia de tradução automática, abrangendo inúmeros pares de idiomas…

3 horas atrás

A Apple ainda permitirá agentes de IA autônomos na App Store, mas com restrições.

A Apple está explorando a possibilidade de permitir agentes de IA autônomos na App Store,…

4 horas atrás