A OpenAI anunciou o Sora 2, seu principal modelo de IA para geração de vídeo e áudio. A empresa o considera um salto quântico em relação ao Sora original e o compara ao GPT-3.5, que revolucionou a geração de texto. Os desenvolvedores observam que o novo modelo aproxima a simulação de mundos de IA de um nível em que a inteligência artificial começa a compreender a física e a dinâmica dos objetos quase tão bem quanto os humanos.

Fonte da imagem: OpenAI
Enquanto os modelos de geração de vídeo anteriores frequentemente criavam uma “imagem” crível, mas apresentavam dificuldades com a lógica básica de movimento — por exemplo, conseguiam “teletransportar” uma bola de basquete para a cesta após um erro — o Sora 2 modela o comportamento de objetos. Um erro significa que a bola quica na tabela. Um patinador artístico tentando um triplo axel pode cometer um erro e cair. O sistema aprendeu a simular não apenas o sucesso, mas também o fracasso — um requisito fundamental para a criação de simuladores do mundo real e robôs avançados. Os desenvolvedores prometem que não haverá mais deformações estranhas de objetos ou violações da lógica da cena para atender a um prompt.
A controlabilidade é outro recurso importante enfatizado pelo OpenAI. O modelo Sora 2 lida com segurança com cenas complexas de várias etapas, mantendo um estado consistente de objetos, locais e iluminação. Exemplos incluem vídeos de um patinador artístico executando uma rotina complexa com vários elementos enquanto carrega um gato na cabeça, ou um personagem de anime envolvido em uma batalha espetacular. Tudo isso é alcançado mantendo a integridade do mundo, a coerência dos quadros e até mesmo as expressões faciais dos personagens. O Sora 2 pode lidar com diversos estilos: realista, cinematográfico e anime.
Como um sistema universal de geração de vídeo e áudio, o Sora 2 é capaz de criar paisagens sonoras de fundo complexas, falas e efeitos sonoros com alto grau de realismo. Uma curta gravação de vídeo é suficiente: o modelo reproduzirá com precisão a aparência, as expressões faciais e até mesmo a voz, integrando-as perfeitamente a qualquer cena. Essa capacidade é universal e funciona para qualquer pessoa, animal ou objeto, de acordo com o comunicado à imprensa da OpenAI.
Juntamente comCom o lançamento do Sora 2, a OpenAI lança o aplicativo social para iOS Sora. Ele permite que os usuários criem vídeos e os compartilhem com amigos, remixem o trabalho uns dos outros, descubram novos vídeos em um feed personalizável do Sora e adicionem a si mesmos ou a seus amigos usando o recurso “cameo”. Com o “cameo”, os usuários podem entrar em qualquer cena do Sora com uma precisão impressionante — tudo o que precisam fazer é gravar um pequeno vídeo de si mesmos e de sua voz pelo aplicativo para verificar sua identidade e capturar sua imagem.
“Na semana passada, lançamos o aplicativo dentro da OpenAI. Nossos colegas já nos disseram que esse recurso os ajudou a fazer novos amigos dentro da empresa. Acreditamos que um aplicativo social desenvolvido em torno do recurso “cameo” é a melhor maneira de vivenciar a magia do Sora 2″, observou a OpenAI em um comunicado à imprensa.
A OpenAI enfatizou que o uso ético e responsável será uma parte importante da nova plataforma. Os usuários decidirão quem pode usar seu “cameo” e como; qualquer vídeo com eles pode ser excluído a qualquer momento. Conteúdo claramente prejudicial ou criado sem consentimento é bloqueado por algoritmos e moderadores.
O aplicativo Sora já está disponível para download para usuários de iPhone nos EUA e Canadá; o registro é feito apenas por convite. Em algumas semanas, o Sora 2 estará disponível como versão web. A versão básica é gratuita e tem limites generosos, enquanto os assinantes do ChatGPT Pro em breve terão acesso ao modelo experimental do Sora 2 Pro com qualidade aprimorada. A monetização ainda não está clara: o único plano é cobrar por gerações adicionais quando a demanda for alta. Expansão geográfica e aberturaO acesso via API está planejado para um futuro próximo.
