A Microsoft revelou um modelo de inteligência artificial (IA) chamado VALL-E que converte texto em fala, imitando com precisão uma voz humana, e uma gravação de apenas três segundos pode servir como amostra. Ao mesmo tempo, a IA retém a coloração emocional da fala da amostra.

Fonte da imagem: Maxime VALCARCE / unsplash.com

Os autores do projeto dizem que o sistema será útil no desenvolvimento de aplicativos com recursos de conversão de texto em fala de alta qualidade e na criação de conteúdo de áudio em combinação com outros geradores de conteúdo de IA, como o GPT-3. Embora eles também reconheçam que pode ser usado para editar áudio de transcrições, o modelo pode “fazer” uma pessoa dizer palavras que nunca disse.

O modelo foi criado com a tecnologia EnCodec da Meta*, que proporciona compressão eficiente do sinal de áudio. Ao contrário dos métodos tradicionais de conversão de texto em fala, o VALL-E não constrói ondas sonoras, mas analisa as características da fala humana, divide esses dados em componentes separados (os chamados “tokens”) e gera um registro com base no que já ” sabe” sobre. amostra – modela a voz como ela pode soar fora da amostra de 3 segundos. O modelo foi treinado na biblioteca LibriLight compilada pela Meta* – que, por sua vez, foi construída com 60.000 horas de fala em inglês de mais de 7.000 falantes: os dados foram emprestados principalmente da coleção LibriVox.

Fonte da imagem: valle-demo.github.io

Nas amostras apresentadas no site do projeto, a coluna “Speaker Prompt” contém amostras de fala; a coluna “Ground Truth” apresenta um registro do texto exigido realizado pela pessoa de quem a amostra foi gravada; “Baseline” é um exemplo do trabalho dos conversores de texto em fala tradicionais e “VALL-E” é o trabalho de um novo modelo de IA. A rede neural também pode oferecer várias opções para o texto necessário com uma voz na amostra. Os criadores do sistema acrescentaram que ele não apenas dá à voz na gravação gerada a cor emocional necessária, mas também imita o “ambiente acústico” da amostra – se a gravação original foi feita a partir de uma conversa telefônica, o resultado será semelhante uma conversa telefônica.

Devido ao perigo de abuso de tecnologia, a Microsoft não publicou o código VALL-E para experimentos, portanto, todos que desejam testar o modelo não poderão. A empresa acrescentou que faria o mesmo com outros projetos se eles carregassem uma ameaça potencial de abuso.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *