A Microsoft apresentou o VALL-E, um modelo de IA que imita uma voz de uma pequena amostra

A Microsoft revelou um modelo de inteligência artificial (IA) chamado VALL-E que converte texto em fala, imitando com precisão uma voz humana, e uma gravação de apenas três segundos pode servir como amostra. Ao mesmo tempo, a IA retém a coloração emocional da fala da amostra.

Fonte da imagem: Maxime VALCARCE / unsplash.com

Os autores do projeto dizem que o sistema será útil no desenvolvimento de aplicativos com recursos de conversão de texto em fala de alta qualidade e na criação de conteúdo de áudio em combinação com outros geradores de conteúdo de IA, como o GPT-3. Embora eles também reconheçam que pode ser usado para editar áudio de transcrições, o modelo pode “fazer” uma pessoa dizer palavras que nunca disse.

O modelo foi criado com a tecnologia EnCodec da Meta*, que proporciona compressão eficiente do sinal de áudio. Ao contrário dos métodos tradicionais de conversão de texto em fala, o VALL-E não constrói ondas sonoras, mas analisa as características da fala humana, divide esses dados em componentes separados (os chamados “tokens”) e gera um registro com base no que já ” sabe” sobre. amostra – modela a voz como ela pode soar fora da amostra de 3 segundos. O modelo foi treinado na biblioteca LibriLight compilada pela Meta* – que, por sua vez, foi construída com 60.000 horas de fala em inglês de mais de 7.000 falantes: os dados foram emprestados principalmente da coleção LibriVox.

Fonte da imagem: valle-demo.github.io

Nas amostras apresentadas no site do projeto, a coluna “Speaker Prompt” contém amostras de fala; a coluna “Ground Truth” apresenta um registro do texto exigido realizado pela pessoa de quem a amostra foi gravada; “Baseline” é um exemplo do trabalho dos conversores de texto em fala tradicionais e “VALL-E” é o trabalho de um novo modelo de IA. A rede neural também pode oferecer várias opções para o texto necessário com uma voz na amostra. Os criadores do sistema acrescentaram que ele não apenas dá à voz na gravação gerada a cor emocional necessária, mas também imita o “ambiente acústico” da amostra – se a gravação original foi feita a partir de uma conversa telefônica, o resultado será semelhante uma conversa telefônica.

Devido ao perigo de abuso de tecnologia, a Microsoft não publicou o código VALL-E para experimentos, portanto, todos que desejam testar o modelo não poderão. A empresa acrescentou que faria o mesmo com outros projetos se eles carregassem uma ameaça potencial de abuso.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

A placa de vídeo Radeon 9070 GRE com 12 GB de memória chegará ao mercado global por um preço de US$ 549.

De acordo com o VideoCardz, a AMD lançará a placa de vídeo Radeon 9070 GRE…

2 horas atrás

A Intel apresentará uma nova versão do padrão de alimentação ATX12VO V3 para fontes de alimentação e placas-mãe.

A Intel está prestes a apresentar a terceira versão do seu padrão de alimentação ATX12VO…

6 horas atrás

Lego Batman: Legacy of the Dark Knight é o novo Batman: Arkham? Análise / Jogos

Jogado no PlayStation 5 Houve uma época em que vários jogos Lego eram lançados todos…

7 horas atrás

Lego Batman: Legacy of the Dark Knight é o novo Batman: Arkham? Análise

Jogado no PlayStation 5 Houve uma época em que vários jogos Lego eram lançados todos…

7 horas atrás

O jogo de RPG tático RuneSmith permite que você lidere um esquadrão de anões para extorquir uma dívida do vilão principal.

Os desenvolvedores do estúdio Terahard anunciaram RuneSmith, um RPG tático no qual um esquadrão de…

10 horas atrás