A Xiaomi apresentou os modelos de IA MiMo V2.5 para conversão de texto em fala e de voz.

A Xiaomi apresentou dois modelos de IA projetados para interação por voz. O MiMo-V2.5-TTS converte texto em fala, oferecendo amplas opções de personalização com o mínimo de esforço; já o MiMo-V2.5-ASR cria transcrições de texto a partir de sons de fala e canto.

Fonte da imagem: Xiaomi

A família Xiaomi MiMo-V2.5-TTS inclui três modelos, que estarão disponíveis gratuitamente por tempo limitado na plataforma Xiaomi MiMo Studio. O modelo básico MiMo-V2.5-TTS converte texto em fala com recursos mínimos: inclui um conjunto de vozes predefinidas, além de opções para ajustar a velocidade da fala, a altura do som e o tom emocional. O MiMo-V2.5-TTS-VoiceDesign permite criar novos tons de voz a partir de uma frase curta. O MiMo-V2.5-TTS-VoiceClone, como o nome sugere, foi projetado para reproduzir uma voz específica a partir de um pequeno conjunto de amostras, mantendo a consistência entre estilos e instruções.

Para obter o resultado desejado, o usuário pode marcar o texto com tags predefinidas ou, mais simplesmente, descrever como a voz deve soar em linguagem simples e natural. É até possível criar um roteiro para produções virtuais com várias vozes simultaneamente. As instruções são suportadas em chinês e inglês.

O Xiaomi MiMo-V2.5-ASR de código aberto foi projetado para reconhecimento de fala, mesmo em ambientes desafiadores. Ele suporta diversos dialetos chineses e inglês, pode criar transcrições de diálogos bilíngues e até mesmo gravar letras de músicas, reconhecendo os vocais que acompanham a música. Também consegue reconhecer a fala em ambientes ruidosos. Uma das principais vantagens do Xiaomi MiMo-V2.5-ASR é o suporte à pontuação, que insere sinais de pontuação com base na entonação. Isso significa que uma transcrição completa pode ser produzida com o mínimo de edição.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

1 dia atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

1 dia atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

1 dia atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

1 dia atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

1 dia atrás