A Nvidia anunciou que sua solução Audio2Face agora está disponível sob a licença de código aberto do MIT. Esta ferramenta generativa baseada em IA foi projetada para animar os rostos de personagens de jogos e sincronizar seus movimentos labiais com o áudio.

Fonte da imagem: nvidia.com
O Nvidia Audio2Face analisa o som da fala, levando em consideração fonemas, entonação e tom emocional, e gera fluxos de dados que podem ser aplicados a personagens 3D, tornando seu comportamento mais expressivo e realista. O modelo de plug-in se conecta ao Autodesk Maya e ao Unreal Engine 5; a Nvidia também preparou um SDK, uma estrutura de treinamento e conjuntos de dados de amostra.
Os criadores de jogos podem refinar ainda mais os modelos existentes ou adaptá-los aos seus projetos, expandindo os recursos do Audio2Face. Modelos de IA de regressão e difusão podem ser usados para sincronização labial, e redes neurais Audio2Emotion, projetadas para reconhecer o estado emocional de um personagem com base em sua voz, também estão disponíveis.
A tecnologia Nvidia Audio2Face já está sendo usada na produção de jogos. A Farm 51 a utilizou na criação de Chernobylite 2: Exclusion Zone para acelerar o processo de animação e tornar a articulação dos personagens mais natural. Também é utilizado pela Codemasters, GSC Game World, NetEase, Perfect World, Convai, Inworld AI, Reallusion, Streamlabs e UneeQ. O sistema elimina a necessidade de métodos tradicionais de captura de movimento, tornando-o popular entre estúdios que buscam acelerar o desenvolvimento.
A Nvidia posiciona o Audio2Face como parte de seu conjunto de ferramentas RTX Kit AI para desenvolvedores, que também inclui SDKs para compressão de textura neural e iluminação global. Ao lançar a solução como um produto de código aberto, a empresa permite que os desenvolvedores a adaptem a uma gama mais ampla de aplicações.
