A Xiaomi apresentou os modelos de IA MiMo V2.5 para conversão de texto em fala e de voz.

A Xiaomi apresentou dois modelos de IA projetados para interação por voz. O MiMo-V2.5-TTS converte texto em fala, oferecendo amplas opções de personalização com o mínimo de esforço; já o MiMo-V2.5-ASR cria transcrições de texto a partir de sons de fala e canto.

Fonte da imagem: Xiaomi

A família Xiaomi MiMo-V2.5-TTS inclui três modelos, que estarão disponíveis gratuitamente por tempo limitado na plataforma Xiaomi MiMo Studio. O modelo básico MiMo-V2.5-TTS converte texto em fala com recursos mínimos: inclui um conjunto de vozes predefinidas, além de opções para ajustar a velocidade da fala, a altura do som e o tom emocional. O MiMo-V2.5-TTS-VoiceDesign permite criar novos tons de voz a partir de uma frase curta. O MiMo-V2.5-TTS-VoiceClone, como o nome sugere, foi projetado para reproduzir uma voz específica a partir de um pequeno conjunto de amostras, mantendo a consistência entre estilos e instruções.

Para obter o resultado desejado, o usuário pode marcar o texto com tags predefinidas ou, mais simplesmente, descrever como a voz deve soar em linguagem simples e natural. É até possível criar um roteiro para produções virtuais com várias vozes simultaneamente. As instruções são suportadas em chinês e inglês.

O Xiaomi MiMo-V2.5-ASR de código aberto foi projetado para reconhecimento de fala, mesmo em ambientes desafiadores. Ele suporta diversos dialetos chineses e inglês, pode criar transcrições de diálogos bilíngues e até mesmo gravar letras de músicas, reconhecendo os vocais que acompanham a música. Também consegue reconhecer a fala em ambientes ruidosos. Uma das principais vantagens do Xiaomi MiMo-V2.5-ASR é o suporte à pontuação, que insere sinais de pontuação com base na entonação. Isso significa que uma transcrição completa pode ser produzida com o mínimo de edição.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O DeepSeek V4, um modelo de IA de código aberto que competirá com as melhores soluções da OpenAI e do Google, foi apresentado.

A empresa chinesa DeepSeek lançou uma versão preliminar de seu modelo de linguagem em larga…

43 minutos atrás

A Microsoft inicia um programa de demissões “suaves”: 7% dos funcionários serão enviados para aposentadoria antecipada.

As gigantes americanas da tecnologia começaram a demitir funcionários com diferentes graus de franqueza, alegando…

44 minutos atrás

“Mais um passo rumo à dominação mundial da Housemarque”: os críticos deram seu veredicto sobre o ambicioso filme de ação Saros, dos criadores de Returnal.

O jogo de ação e ficção científica Saros, da Sony Interactive Entertainment e da desenvolvedora…

44 minutos atrás

Na próxima década, as pessoas começarão a viver e trabalhar na Lua, prometeu o chefe da startup Voyager Technologies.

Elon Musk não é o único que sonha em colonizar a Lua e Marte. Dylan…

44 minutos atrás

A Intel afirmou que, sem otimizações, os jogos perdem até 30% do seu desempenho.

O baixo desempenho em jogos nem sempre se deve à baixa potência do processador, afirmou…

58 minutos atrás

A Porsche apresentou o Cayenne elétrico com até 1.139 cv e aceleração de 0 a 100 km/h em 2,4 segundos.

A Porsche adicionou uma versão cupê à sua linha de crossovers elétricos Cayenne. O Cayenne…

2 horas atrás