A chinesa Tencent apresentou o gerador de vídeo HunyuanVideo, que os usuários consideraram o melhor dos existentes.

A gigante tecnológica chinesa Tencent anunciou o HunyuanVideo, um modelo avançado de inteligência artificial para geração de vídeo publicado como código aberto. Pela primeira vez, o código de saída e os pesos de um modelo de IA com tais capacidades estão disponíveis para todos.

Fonte da imagem: Tencent

HunyuanVideo, de acordo com a Tencent, é capaz de gerar vídeos no nível dos principais sistemas de código fechado do mundo – esses vídeos se distinguem pela alta qualidade de imagem, uma variedade de movimentos de objetos no quadro, a capacidade de sincronizar visual e áudio, como bem como estabilidade de geração. Este é o maior modelo para geração de vídeo – possui 13 bilhões de parâmetros. O pacote HunyuanVideo inclui uma estrutura com ferramentas de gerenciamento de dados; ferramentas para treinamento colaborativo de modelos que trabalham com imagens e vídeos; e infraestrutura para apoiar o treinamento e execução de modelos em larga escala.

A Tencent testou o modelo com o apoio da comunidade profissional, que concluiu que o HunyuanVideo é superior em qualidade aos projetos fechados Runway Gen-3 e Luma 1.6. Para alcançar esse resultado, o desenvolvedor recorreu a uma arquitetura de transmissão híbrida de fluxo duplo para fluxo único. Na fase inicial, os tokens de vídeo e texto são processados ​​​​de forma independente por vários blocos do modelo do transformador, para que dados de diferentes formatos sejam convertidos sem interferência. Durante o estágio de fluxo único, os tokens de vídeo e texto são passados ​​para os blocos transformadores subsequentes, permitindo a fusão eficiente de dados multimodais. Isso permite que as relações complexas entre informações visuais e semânticas sejam capturadas e o desempenho geral do modelo melhore.

Com o lançamento do HunyuanVideo, a Tencent deu um passo significativo em direção à democratização da tecnologia de criação de vídeo usando IA. Graças ao seu código-fonte aberto, o modelo é capaz de revolucionar o ecossistema de geração de vídeos.

avalanche

Postagens recentes

XMEMS mostrou sistemas de resfriamento microeletromecânicos e alto-falantes estranhos na CES 2025

A empresa americana xMEMS vem estimulando a imaginação há muitos anos com seus incomuns alto-falantes…

8 minutos atrás

As vendas globais de chips em novembro saltaram 20,7% e atualizaram um recorde histórico

Em termos monetários, conforme observado num relatório divulgado esta semana pela associação industrial SIA, as…

18 minutos atrás

Mark Zuckerberg permitiu pessoalmente que os modelos de IA do Llama fossem treinados em materiais piratas

O CEO da Meta✴, Mark Zuckerberg, autorizou pessoalmente a divisão Meta✴ responsável pelo desenvolvimento de…

18 minutos atrás

TikTok nos EUA encontrou um novo comprador 10 dias antes de uma possível proibição do serviço

Em 19 de janeiro, entra em vigor a proibição da continuidade da operação da plataforma…

18 minutos atrás

O piloto automático começará a se espalhar em massa nas estradas chinesas este ano

As montadoras chinesas conseguiram atrair consumidores com preços baixos, design e características técnicas nas fases…

58 minutos atrás