Categorias: Editores de áudio

A Xiaomi apresentou o OmniVoice, um modelo de IA aberto que consegue ler textos em praticamente qualquer idioma e copiar sua voz.

A Xiaomi anunciou o lançamento do OmniVoice, uma plataforma de IA de código aberto projetada para conversão de texto em fala. Além da síntese de voz em centenas de idiomas, ela oferece suporte à clonagem de voz e à geração de fala personalizada.

Fonte da imagem: Xiaomi

Segundo seus desenvolvedores, o OmniVoice demonstra alto desempenho em chinês e inglês, competindo com sistemas comerciais existentes e superando-os em diversas tarefas. Uma das principais vantagens do modelo é o suporte a idiomas mesmo com recursos limitados — ele gera fala em “quase qualquer idioma”, mesmo com uma pequena quantidade de dados de treinamento disponíveis. Além disso, a Xiaomi destacou que este é o primeiro modelo de clonagem de voz do setor a suportar centenas de idiomas.

Em testes multilíngues, o OmniVoice superou diversos sistemas comerciais em 24 idiomas em termos de similaridade e inteligibilidade da fala, mesmo quando treinado com conjuntos de dados abertos. Quando testado em 102 idiomas, a inteligibilidade da fala do OmniVoice foi próxima à da fala humana e, em alguns casos, até superior. Alta qualidade de saída foi alcançada mesmo com menos de 10 horas de dados de treinamento para um determinado idioma.

Fonte da imagem: Ali Khadem / unsplash.com

Em comparação com os sistemas modernos de síntese de fala, o OmniVoice apresenta uma arquitetura muito mais simples: em vez de conectar vários módulos e estágios de predição, ele utiliza uma única rede bidirecional do tipo Transformer para conversão direta de texto em fala. Não há necessidade de modelagem de texto separada, estruturas híbridas complexas ou sistemas de predição de tokens em múltiplas camadas. Essa arquitetura simplificada se traduz em alto desempenho do modelo — ele pode ser treinado com 100.000 horas de dados em apenas um dia. Durante a inferência (execução), ele opera até 40 vezes mais rápido que o tempo real usando o framework de IA PyTorch, tornando-o relativamente fácil de implantar em aplicativos e serviços para o consumidor.

A Xiaomi explicou que o alto desempenho do OmniVoice foi alcançado por meio de duas abordagens. Primeiro, um “método de ocultação de código acústico aleatório” foi usado durante o treinamento do modelo, o que aumentou a eficiência do treinamento e expandiu as capacidades gerais do modelo. Em segundo lugar, durante a fase de pré-treinamento, um grande modelo de linguagem foi integrado ao modelo, o que ajudou a melhorar a precisão da pronúncia e a inteligibilidade da fala.

O OmniVoice oferece diversos recursos práticos. O modelo pode gerar uma voz com base em propriedades definidas pelo usuário, levando em consideração idade, gênero, tom de voz, sotaque, dialeto e estilo de fala; sussurros e outros estilos de fala específicos podem ser gerados sem a necessidade de uma referência. Ele também pode remover ruídos da amostra e extrair características vocais distintas para replicá-la, mesmo quando o arquivo de áudio original foi gravado em condições não ideais.Existem também controles de entonação, que geram suspiros e risadas, tornando a fala produzida mais natural. Por fim, aspectos complexos da pronúncia podem ser corrigidos manualmente, como caracteres chineses polifônicos ou nomes próprios em inglês.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O sindicato dos funcionários da Samsung realizará novas negociações com a direção na próxima semana.

A greve geral de 18 dias dos funcionários da Samsung Electronics, agendada para 21 de…

33 minutos atrás

TSMC e Sony unem forças para desenvolver e fabricar sensores de imagem.

A TSMC e a Sony Semiconductor Solutions (uma subsidiária do Grupo Sony) anunciaram planos para…

33 minutos atrás

As vendas do PlayStation 5 caíram quase pela metade, e a Sony atribuiu a culpa à escassez de memória.

Os consoles PlayStation 5 estão atualmente em seu sexto ano de produção, mas devido à…

33 minutos atrás

Investidores pressionam a Nintendo: o preço do console Switch 2 em breve subirá para US$ 499.

Sob pressão de investidores, a Nintendo anunciou um aumento de preço para os consoles portáteis…

33 minutos atrás

A receita da TSMC em abril aumentou 17,5% devido ao boom da inteligência artificial.

O primeiro mês do segundo trimestre já terminou, o que nos permite resumir alguns dos…

1 hora atrás