A Xiaomi apresentou dois modelos de IA projetados para interação por voz. O MiMo-V2.5-TTS converte texto em fala, oferecendo amplas opções de personalização com o mínimo de esforço; já o MiMo-V2.5-ASR cria transcrições de texto a partir de sons de fala e canto.

Fonte da imagem: Xiaomi
A família Xiaomi MiMo-V2.5-TTS inclui três modelos, que estarão disponíveis gratuitamente por tempo limitado na plataforma Xiaomi MiMo Studio. O modelo básico MiMo-V2.5-TTS converte texto em fala com recursos mínimos: inclui um conjunto de vozes predefinidas, além de opções para ajustar a velocidade da fala, a altura do som e o tom emocional. O MiMo-V2.5-TTS-VoiceDesign permite criar novos tons de voz a partir de uma frase curta. O MiMo-V2.5-TTS-VoiceClone, como o nome sugere, foi projetado para reproduzir uma voz específica a partir de um pequeno conjunto de amostras, mantendo a consistência entre estilos e instruções.
Para obter o resultado desejado, o usuário pode marcar o texto com tags predefinidas ou, mais simplesmente, descrever como a voz deve soar em linguagem simples e natural. É até possível criar um roteiro para produções virtuais com várias vozes simultaneamente. As instruções são suportadas em chinês e inglês.
O Xiaomi MiMo-V2.5-ASR de código aberto foi projetado para reconhecimento de fala, mesmo em ambientes desafiadores. Ele suporta diversos dialetos chineses e inglês, pode criar transcrições de diálogos bilíngues e até mesmo gravar letras de músicas, reconhecendo os vocais que acompanham a música. Também consegue reconhecer a fala em ambientes ruidosos. Uma das principais vantagens do Xiaomi MiMo-V2.5-ASR é o suporte à pontuação, que insere sinais de pontuação com base na entonação. Isso significa que uma transcrição completa pode ser produzida com o mínimo de edição.