Os engenheiros da Meta* falaram sobre o modelo de rede neural Voicebox, que possui uma ampla gama de recursos para trabalhar com fala oral: geração, edição ou estilização de acordo com um modelo. Os autores do projeto o descreveram como um avanço nos modelos de IA de fala.

Fonte da imagem: Meta*

O Voicebox lê o texto fornecido com alta qualidade ou processa uma gravação de voz já concluída, por exemplo, remove sons estranhos, como buzinas de carros e latidos de cachorro, mantendo o conteúdo e o estilo da fala. Se necessário, você pode até “reproduzir” um fragmento da gravação, corrigindo pontualmente, por exemplo, uma palavra pronunciada incorretamente. Seis idiomas são suportados: inglês, francês, alemão, espanhol, polonês e português. O Voicebox pode ser utilizado como intérprete simultâneo, transmitindo a voz e o modo de falar do interlocutor.

A modelo foi treinada em 50 horas de audiolivros, e isso foi o suficiente para ela dominar ao máximo as habilidades da fala oral: ela traça o perfil de sua voz e modo de falar com base em uma amostra de apenas dois segundos, após o que ela pode reproduzir com qualquer texto. Na prática, esses recursos podem ser úteis em aplicativos de metaverso, fornecendo vozes com som natural para assistentes virtuais e NPCs; ou para deficientes visuais – a modelo pode dublar letras nas vozes de seus autores.

A Meta* frequentemente torna seus modelos de IA públicos, mas não desta vez. A empresa não divulgou em quais materiais o Voicebox foi treinado e não se ofereceu para testar a tecnologia na prática – eles têm medo de abuso.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

Análise do Ryzen 9 9950X3D2: Um processador de 16 núcleos com cache 3D / Processadores e Memória

Quando a AMD começou a migrar a tecnologia 3D V-Cache para seus processadores Ryzen de…

33 minutos atrás

A NASA apresentou o Pegasus, um novo veículo explorador projetado para explorar a Lua.

A Administração Nacional da Aeronáutica e Espaço dos Estados Unidos (NASA) busca construir um assentamento…

4 horas atrás

A NASA apresentou o Pegasus, um novo veículo explorador projetado para explorar a Lua.

A Administração Nacional da Aeronáutica e Espaço dos Estados Unidos (NASA) busca construir um assentamento…

4 horas atrás

“Ocorreu uma falha”: um carro da Tesla com o Autopilot ativado colidiu com a porta de uma garagem.

Um proprietário de um Tesla do estado de Washington (EUA) literalmente invadiu a garagem de…

7 horas atrás

Os bloqueadores de anúncios continuarão funcionando no Google Chrome após o fim do suporte ao Manifest V2.

Esta semana, veículos de comunicação noticiaram a intenção do Google de abandonar o suporte ao…

8 horas atrás

Físicos lançaram um relógio nuclear pela primeira vez – ele pode superar os relógios atômicos em precisão e auxiliar na busca por matéria escura.

Um grupo de físicos demonstrou pela primeira vez um relógio nuclear funcional — um dispositivo…

9 horas atrás