A Xiaomi apresentou os modelos de IA MiMo V2.5 para conversão de texto em fala e de voz.

A Xiaomi apresentou dois modelos de IA projetados para interação por voz. O MiMo-V2.5-TTS converte texto em fala, oferecendo amplas opções de personalização com o mínimo de esforço; já o MiMo-V2.5-ASR cria transcrições de texto a partir de sons de fala e canto.

Fonte da imagem: Xiaomi

A família Xiaomi MiMo-V2.5-TTS inclui três modelos, que estarão disponíveis gratuitamente por tempo limitado na plataforma Xiaomi MiMo Studio. O modelo básico MiMo-V2.5-TTS converte texto em fala com recursos mínimos: inclui um conjunto de vozes predefinidas, além de opções para ajustar a velocidade da fala, a altura do som e o tom emocional. O MiMo-V2.5-TTS-VoiceDesign permite criar novos tons de voz a partir de uma frase curta. O MiMo-V2.5-TTS-VoiceClone, como o nome sugere, foi projetado para reproduzir uma voz específica a partir de um pequeno conjunto de amostras, mantendo a consistência entre estilos e instruções.

Para obter o resultado desejado, o usuário pode marcar o texto com tags predefinidas ou, mais simplesmente, descrever como a voz deve soar em linguagem simples e natural. É até possível criar um roteiro para produções virtuais com várias vozes simultaneamente. As instruções são suportadas em chinês e inglês.

O Xiaomi MiMo-V2.5-ASR de código aberto foi projetado para reconhecimento de fala, mesmo em ambientes desafiadores. Ele suporta diversos dialetos chineses e inglês, pode criar transcrições de diálogos bilíngues e até mesmo gravar letras de músicas, reconhecendo os vocais que acompanham a música. Também consegue reconhecer a fala em ambientes ruidosos. Uma das principais vantagens do Xiaomi MiMo-V2.5-ASR é o suporte à pontuação, que insere sinais de pontuação com base na entonação. Isso significa que uma transcrição completa pode ser produzida com o mínimo de edição.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Organizando o monitoramento de servidores usando controladores NetPing

A sala de servidores é uma das partes mais vulneráveis ​​da infraestrutura de TI. Qualquer…

1 hora atrás

A Intel se orgulha da redução de defeitos em suas tecnologias de processo Intel 4, 3 e 18A.

A Intel já vem divulgando os resultados financeiros de sua divisão de contratos de fundição…

1 hora atrás

Um chinês desenvolveu uma chave universal para invadir carregadores de carros elétricos e muito mais.

Operadores de serviços de aluguel, como bicicletas elétricas e estações de recarga para veículos elétricos,…

1 hora atrás

Diretor do Google Cloud: IA generativa já está por trás dos seus jogos favoritos, você só não sabe disso.

Jack Buser, chefe da divisão de jogos do Google Cloud, falou com o Mobilegamer.biz sobre…

2 horas atrás

O modelo de IA Qwen será instalado em massa em carros chineses, permitindo que os motoristas peçam comida e reservem hotéis usando apenas a voz.

O modelo de IA Qwen, da Alibaba, será integrado a veículos de diversos fabricantes, como…

2 horas atrás