A Microsoft apresentou o VALL-E, um modelo de IA que imita uma voz de uma pequena amostra

A Microsoft revelou um modelo de inteligência artificial (IA) chamado VALL-E que converte texto em fala, imitando com precisão uma voz humana, e uma gravação de apenas três segundos pode servir como amostra. Ao mesmo tempo, a IA retém a coloração emocional da fala da amostra.

Fonte da imagem: Maxime VALCARCE / unsplash.com

Os autores do projeto dizem que o sistema será útil no desenvolvimento de aplicativos com recursos de conversão de texto em fala de alta qualidade e na criação de conteúdo de áudio em combinação com outros geradores de conteúdo de IA, como o GPT-3. Embora eles também reconheçam que pode ser usado para editar áudio de transcrições, o modelo pode “fazer” uma pessoa dizer palavras que nunca disse.

O modelo foi criado com a tecnologia EnCodec da Meta*, que proporciona compressão eficiente do sinal de áudio. Ao contrário dos métodos tradicionais de conversão de texto em fala, o VALL-E não constrói ondas sonoras, mas analisa as características da fala humana, divide esses dados em componentes separados (os chamados “tokens”) e gera um registro com base no que já ” sabe” sobre. amostra – modela a voz como ela pode soar fora da amostra de 3 segundos. O modelo foi treinado na biblioteca LibriLight compilada pela Meta* – que, por sua vez, foi construída com 60.000 horas de fala em inglês de mais de 7.000 falantes: os dados foram emprestados principalmente da coleção LibriVox.

Fonte da imagem: valle-demo.github.io

Nas amostras apresentadas no site do projeto, a coluna “Speaker Prompt” contém amostras de fala; a coluna “Ground Truth” apresenta um registro do texto exigido realizado pela pessoa de quem a amostra foi gravada; “Baseline” é um exemplo do trabalho dos conversores de texto em fala tradicionais e “VALL-E” é o trabalho de um novo modelo de IA. A rede neural também pode oferecer várias opções para o texto necessário com uma voz na amostra. Os criadores do sistema acrescentaram que ele não apenas dá à voz na gravação gerada a cor emocional necessária, mas também imita o “ambiente acústico” da amostra – se a gravação original foi feita a partir de uma conversa telefônica, o resultado será semelhante uma conversa telefônica.

Devido ao perigo de abuso de tecnologia, a Microsoft não publicou o código VALL-E para experimentos, portanto, todos que desejam testar o modelo não poderão. A empresa acrescentou que faria o mesmo com outros projetos se eles carregassem uma ameaça potencial de abuso.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

Honor, um robô humanoide, correu uma meia maratona mais rápido que um atleta profissional.

Na China, os robôs humanoides não estão apenas exibindo suas capacidades em apresentações festivas; sua…

2 horas atrás

A Samsung encerrou os pedidos de LPDDR4/4X e utilizará a capacidade liberada para produzir DRAM de 1 núcleo.

A Samsung Electronics anunciou oficialmente a suspensão da aceitação de novos pedidos de memória DRAM…

2 horas atrás

Após abandonar a produção de veículos elétricos, o projeto Afeela, da Sony e da Honda, continuará.

A Sony buscava há tempos aplicar sua expertise na produção de câmeras e sensores de…

3 horas atrás

O preço das ações da Intel está apenas 8% abaixo de sua máxima histórica de 2000.

Durante o pregão de sexta-feira, as ações da Intel subiram apenas 1,5%, para US$ 69,55,…

4 horas atrás

Sansão — “Problemas” Não em Nossa Casa. Resenha

Intel Core i5-10505 3.2 GHz / AMD Ryzen 5 3600 3.6 GHz, 16 GB de…

10 horas atrás