A Microsoft apresentou o VALL-E, um modelo de IA que imita uma voz de uma pequena amostra

A Microsoft revelou um modelo de inteligência artificial (IA) chamado VALL-E que converte texto em fala, imitando com precisão uma voz humana, e uma gravação de apenas três segundos pode servir como amostra. Ao mesmo tempo, a IA retém a coloração emocional da fala da amostra.

Fonte da imagem: Maxime VALCARCE / unsplash.com

Os autores do projeto dizem que o sistema será útil no desenvolvimento de aplicativos com recursos de conversão de texto em fala de alta qualidade e na criação de conteúdo de áudio em combinação com outros geradores de conteúdo de IA, como o GPT-3. Embora eles também reconheçam que pode ser usado para editar áudio de transcrições, o modelo pode “fazer” uma pessoa dizer palavras que nunca disse.

O modelo foi criado com a tecnologia EnCodec da Meta*, que proporciona compressão eficiente do sinal de áudio. Ao contrário dos métodos tradicionais de conversão de texto em fala, o VALL-E não constrói ondas sonoras, mas analisa as características da fala humana, divide esses dados em componentes separados (os chamados “tokens”) e gera um registro com base no que já ” sabe” sobre. amostra – modela a voz como ela pode soar fora da amostra de 3 segundos. O modelo foi treinado na biblioteca LibriLight compilada pela Meta* – que, por sua vez, foi construída com 60.000 horas de fala em inglês de mais de 7.000 falantes: os dados foram emprestados principalmente da coleção LibriVox.

Fonte da imagem: valle-demo.github.io

Nas amostras apresentadas no site do projeto, a coluna “Speaker Prompt” contém amostras de fala; a coluna “Ground Truth” apresenta um registro do texto exigido realizado pela pessoa de quem a amostra foi gravada; “Baseline” é um exemplo do trabalho dos conversores de texto em fala tradicionais e “VALL-E” é o trabalho de um novo modelo de IA. A rede neural também pode oferecer várias opções para o texto necessário com uma voz na amostra. Os criadores do sistema acrescentaram que ele não apenas dá à voz na gravação gerada a cor emocional necessária, mas também imita o “ambiente acústico” da amostra – se a gravação original foi feita a partir de uma conversa telefônica, o resultado será semelhante uma conversa telefônica.

Devido ao perigo de abuso de tecnologia, a Microsoft não publicou o código VALL-E para experimentos, portanto, todos que desejam testar o modelo não poderão. A empresa acrescentou que faria o mesmo com outros projetos se eles carregassem uma ameaça potencial de abuso.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

A Intel lança o Xeon 600 com 12 a 86 núcleos para estações de trabalho e o Core Ultra 300 vPro para laptops empresariais.

A Intel lançou oficialmente sua linha de processadores para estações de trabalho Xeon série 600,…

25 minutos atrás

Intel lança “Big Battle Wizards” — placas gráficas Arc Pro B70 e B65 com 32 GB de GDDR6 para profissionais.

A Intel apresentou duas novas placas gráficas para estações de trabalho: a Arc Pro B70…

1 hora atrás

A MSI lançou fontes de alimentação com um buzzer embutido que avisa em alto e bom som sobre o risco de derretimento da placa de vídeo.

Os conectores de alimentação de placas de vídeo 12VHPWR, e posteriormente 12V-2x6, eram notórios por…

1 hora atrás

O simulador cooperativo insano Salvation Denied vai te desafiar a construir torres gigantes usando ferramentas absurdas.

A editora Digital Vortex e os desenvolvedores do estúdio polonês Firevolt (que também está desenvolvendo…

2 horas atrás

A Samsung apresentou o processador Exynos 1680 de 4 nm para smartphones de gama média.

A Samsung anunciou hoje os smartphones intermediários Galaxy A37 e Galaxy A57. Este último é…

2 horas atrás