Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

A Microsoft apresentou o VALL-E, um modelo de IA que imita uma voz de uma pequena amostra

A Microsoft revelou um modelo de inteligência artificial (IA) chamado VALL-E que converte texto em fala, imitando com precisão uma voz humana, e uma gravação de apenas três segundos pode servir como amostra. Ao mesmo tempo, a IA retém a coloração emocional da fala da amostra.

Fonte da imagem: Maxime VALCARCE / unsplash.com

Os autores do projeto dizem que o sistema será útil no desenvolvimento de aplicativos com recursos de conversão de texto em fala de alta qualidade e na criação de conteúdo de áudio em combinação com outros geradores de conteúdo de IA, como o GPT-3. Embora eles também reconheçam que pode ser usado para editar áudio de transcrições, o modelo pode “fazer” uma pessoa dizer palavras que nunca disse.

O modelo foi criado com a tecnologia EnCodec da Meta*, que proporciona compressão eficiente do sinal de áudio. Ao contrário dos métodos tradicionais de conversão de texto em fala, o VALL-E não constrói ondas sonoras, mas analisa as características da fala humana, divide esses dados em componentes separados (os chamados “tokens”) e gera um registro com base no que já ” sabe” sobre. amostra – modela a voz como ela pode soar fora da amostra de 3 segundos. O modelo foi treinado na biblioteca LibriLight compilada pela Meta* – que, por sua vez, foi construída com 60.000 horas de fala em inglês de mais de 7.000 falantes: os dados foram emprestados principalmente da coleção LibriVox.

Fonte da imagem: valle-demo.github.io

Nas amostras apresentadas no site do projeto, a coluna “Speaker Prompt” contém amostras de fala; a coluna “Ground Truth” apresenta um registro do texto exigido realizado pela pessoa de quem a amostra foi gravada; “Baseline” é um exemplo do trabalho dos conversores de texto em fala tradicionais e “VALL-E” é o trabalho de um novo modelo de IA. A rede neural também pode oferecer várias opções para o texto necessário com uma voz na amostra. Os criadores do sistema acrescentaram que ele não apenas dá à voz na gravação gerada a cor emocional necessária, mas também imita o “ambiente acústico” da amostra – se a gravação original foi feita a partir de uma conversa telefônica, o resultado será semelhante uma conversa telefônica.

Devido ao perigo de abuso de tecnologia, a Microsoft não publicou o código VALL-E para experimentos, portanto, todos que desejam testar o modelo não poderão. A empresa acrescentou que faria o mesmo com outros projetos se eles carregassem uma ameaça potencial de abuso.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Próximo Elon Musk: o primeiro voo orbital da SpaceX Starship pode ocorrer em fevereiro ou março »

Anterior « NVIDIA: menos da metade das placas gráficas GeForce em uso atualmente suportam rastreamento de raios

Deixar comentário

Publicado por

avalanche

4 anos atrás

Postagens recentes

Jogos

Um americano foi preso sob suspeita de roubar criptomoedas por meio de um vírus escondido em jogos Steam.

O FBI prendeu Zyaire Dontaevious Zamarion Wilkins, de 21 anos, na Flórida, e o acusou…

1 hora atrás

Desenvolvimento e fabricação de eletrônicos

A TSMC se vangloriou de seu sucesso no desenvolvimento da tecnologia de processo A14 de 1,4 nm – ela está se desenvolvendo mais rápido que o N2

\nNos últimos três meses, a TSMC fez progressos significativos no desenvolvimento da tecnologia de processo…

1 hora atrás

Drones e helicópteros

Ex-engenheiro de foguetes cria minúsculo drone caçador de mosquitos

\nUm ex-engenheiro da desenvolvedora e fabricante europeia de sistemas de mísseis MBDA, Alex Toussaint, desenvolveu…

1 hora atrás

Jogos

Bethesda chamou Starfield de “parte importante” de seu futuro e sugeriu uma nova adição à história em 2027

\nNa mensagem de hoje aos fãs, a Bethesda Game Studios anunciou não apenas novos jogos…

2 horas atrás

Jogos

Bethesda anunciou oficialmente Fallout 5, um novo Fallout da Obsidian, remasterizações de Fallout 3 e New Vegas

\nOs desenvolvedores da Bethesda Game Studios, em uma mensagem surpresa aos jogadores, falaram sobre projetos…

3 horas atrás

Comentários sobre eventos recentes

Apple amplia seu caso contra OpenAI: a empresa suspeita de dezenas de ex-funcionários

\nDe acordo com fontes online, a Apple enviou cartas exigindo a preservação de documentos e…

3 horas atrás

A Microsoft apresentou o VALL-E, um modelo de IA que imita uma voz de uma pequena amostra

Conteúdo relacionado

Postagens recentes

Um americano foi preso sob suspeita de roubar criptomoedas por meio de um vírus escondido em jogos Steam.

A TSMC se vangloriou de seu sucesso no desenvolvimento da tecnologia de processo A14 de 1,4 nm – ela está se desenvolvendo mais rápido que o N2

Ex-engenheiro de foguetes cria minúsculo drone caçador de mosquitos

Bethesda chamou Starfield de “parte importante” de seu futuro e sugeriu uma nova adição à história em 2027

Bethesda anunciou oficialmente Fallout 5, um novo Fallout da Obsidian, remasterizações de Fallout 3 e New Vegas

Apple amplia seu caso contra OpenAI: a empresa suspeita de dezenas de ex-funcionários