A Xiaomi anunciou o lançamento do OmniVoice, uma plataforma de IA de código aberto projetada para conversão de texto em fala. Além da síntese de voz em centenas de idiomas, ela oferece suporte à clonagem de voz e à geração de fala personalizada.

Fonte da imagem: Xiaomi
Segundo seus desenvolvedores, o OmniVoice demonstra alto desempenho em chinês e inglês, competindo com sistemas comerciais existentes e superando-os em diversas tarefas. Uma das principais vantagens do modelo é o suporte a idiomas mesmo com recursos limitados — ele gera fala em “quase qualquer idioma”, mesmo com uma pequena quantidade de dados de treinamento disponíveis. Além disso, a Xiaomi destacou que este é o primeiro modelo de clonagem de voz do setor a suportar centenas de idiomas.
Em testes multilíngues, o OmniVoice superou diversos sistemas comerciais em 24 idiomas em termos de similaridade e inteligibilidade da fala, mesmo quando treinado com conjuntos de dados abertos. Quando testado em 102 idiomas, a inteligibilidade da fala do OmniVoice foi próxima à da fala humana e, em alguns casos, até superior. Alta qualidade de saída foi alcançada mesmo com menos de 10 horas de dados de treinamento para um determinado idioma.

Fonte da imagem: Ali Khadem / unsplash.com
Em comparação com os sistemas modernos de síntese de fala, o OmniVoice apresenta uma arquitetura muito mais simples: em vez de conectar vários módulos e estágios de predição, ele utiliza uma única rede bidirecional do tipo Transformer para conversão direta de texto em fala. Não há necessidade de modelagem de texto separada, estruturas híbridas complexas ou sistemas de predição de tokens em múltiplas camadas. Essa arquitetura simplificada se traduz em alto desempenho do modelo — ele pode ser treinado com 100.000 horas de dados em apenas um dia. Durante a inferência (execução), ele opera até 40 vezes mais rápido que o tempo real usando o framework de IA PyTorch, tornando-o relativamente fácil de implantar em aplicativos e serviços para o consumidor.
A Xiaomi explicou que o alto desempenho do OmniVoice foi alcançado por meio de duas abordagens. Primeiro, um “método de ocultação de código acústico aleatório” foi usado durante o treinamento do modelo, o que aumentou a eficiência do treinamento e expandiu as capacidades gerais do modelo. Em segundo lugar, durante a fase de pré-treinamento, um grande modelo de linguagem foi integrado ao modelo, o que ajudou a melhorar a precisão da pronúncia e a inteligibilidade da fala.
O OmniVoice oferece diversos recursos práticos. O modelo pode gerar uma voz com base em propriedades definidas pelo usuário, levando em consideração idade, gênero, tom de voz, sotaque, dialeto e estilo de fala; sussurros e outros estilos de fala específicos podem ser gerados sem a necessidade de uma referência. Ele também pode remover ruídos da amostra e extrair características vocais distintas para replicá-la, mesmo quando o arquivo de áudio original foi gravado em condições não ideais.Existem também controles de entonação, que geram suspiros e risadas, tornando a fala produzida mais natural. Por fim, aspectos complexos da pronúncia podem ser corrigidos manualmente, como caracteres chineses polifônicos ou nomes próprios em inglês.