A Microsoft apresentou o VALL-E, um modelo de IA que imita uma voz de uma pequena amostra

A Microsoft revelou um modelo de inteligência artificial (IA) chamado VALL-E que converte texto em fala, imitando com precisão uma voz humana, e uma gravação de apenas três segundos pode servir como amostra. Ao mesmo tempo, a IA retém a coloração emocional da fala da amostra.

Fonte da imagem: Maxime VALCARCE / unsplash.com

Os autores do projeto dizem que o sistema será útil no desenvolvimento de aplicativos com recursos de conversão de texto em fala de alta qualidade e na criação de conteúdo de áudio em combinação com outros geradores de conteúdo de IA, como o GPT-3. Embora eles também reconheçam que pode ser usado para editar áudio de transcrições, o modelo pode “fazer” uma pessoa dizer palavras que nunca disse.

O modelo foi criado com a tecnologia EnCodec da Meta*, que proporciona compressão eficiente do sinal de áudio. Ao contrário dos métodos tradicionais de conversão de texto em fala, o VALL-E não constrói ondas sonoras, mas analisa as características da fala humana, divide esses dados em componentes separados (os chamados “tokens”) e gera um registro com base no que já ” sabe” sobre. amostra – modela a voz como ela pode soar fora da amostra de 3 segundos. O modelo foi treinado na biblioteca LibriLight compilada pela Meta* – que, por sua vez, foi construída com 60.000 horas de fala em inglês de mais de 7.000 falantes: os dados foram emprestados principalmente da coleção LibriVox.

Fonte da imagem: valle-demo.github.io

Nas amostras apresentadas no site do projeto, a coluna “Speaker Prompt” contém amostras de fala; a coluna “Ground Truth” apresenta um registro do texto exigido realizado pela pessoa de quem a amostra foi gravada; “Baseline” é um exemplo do trabalho dos conversores de texto em fala tradicionais e “VALL-E” é o trabalho de um novo modelo de IA. A rede neural também pode oferecer várias opções para o texto necessário com uma voz na amostra. Os criadores do sistema acrescentaram que ele não apenas dá à voz na gravação gerada a cor emocional necessária, mas também imita o “ambiente acústico” da amostra – se a gravação original foi feita a partir de uma conversa telefônica, o resultado será semelhante uma conversa telefônica.

Devido ao perigo de abuso de tecnologia, a Microsoft não publicou o código VALL-E para experimentos, portanto, todos que desejam testar o modelo não poderão. A empresa acrescentou que faria o mesmo com outros projetos se eles carregassem uma ameaça potencial de abuso.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

O YouTube tem bombardeado alguns usuários com testes CAPTCHA antes de assistirem aos vídeos.

Alguns usuários do YouTube têm encontrado dificuldades ao usar o site devido a um CAPTCHA…

4 horas atrás

A Nvidia lançou uma atualização de driver para corrigir travamentos em Arknights: Endfield.

A Nvidia lançou a versão 596.02 do driver de correção (hotfix). Ela é baseada no…

5 horas atrás

Um horror ancestral desperta no trailer de jogabilidade de Cthulhu: The Cosmic Abyss, um jogo de terror e investigação baseado nas obras de H.P. Lovecraft.

A desenvolvedora Big Bad Wolf, com o apoio da Nacon, revelou um trailer de jogabilidade…

6 horas atrás

A MaxSun apresentou suas variantes do Arc Pro B70, com resfriamento ativo e passivo.

A MaxSun tornou-se a primeira parceira da Intel a anunciar suas variantes da placa gráfica…

6 horas atrás

A ASRock apresentou a placa-mãe Z890 Taichi 10th Anniversary com um design atualizado.

A ASRock apresentou a placa-mãe Z890 Taichi 10th Anniversary, projetada para celebrar o 10º aniversário…

7 horas atrás