A Xiaomi apresentou os modelos de IA MiMo V2.5 para conversão de texto em fala e de voz.

A Xiaomi apresentou dois modelos de IA projetados para interação por voz. O MiMo-V2.5-TTS converte texto em fala, oferecendo amplas opções de personalização com o mínimo de esforço; já o MiMo-V2.5-ASR cria transcrições de texto a partir de sons de fala e canto.

Fonte da imagem: Xiaomi

A família Xiaomi MiMo-V2.5-TTS inclui três modelos, que estarão disponíveis gratuitamente por tempo limitado na plataforma Xiaomi MiMo Studio. O modelo básico MiMo-V2.5-TTS converte texto em fala com recursos mínimos: inclui um conjunto de vozes predefinidas, além de opções para ajustar a velocidade da fala, a altura do som e o tom emocional. O MiMo-V2.5-TTS-VoiceDesign permite criar novos tons de voz a partir de uma frase curta. O MiMo-V2.5-TTS-VoiceClone, como o nome sugere, foi projetado para reproduzir uma voz específica a partir de um pequeno conjunto de amostras, mantendo a consistência entre estilos e instruções.

Para obter o resultado desejado, o usuário pode marcar o texto com tags predefinidas ou, mais simplesmente, descrever como a voz deve soar em linguagem simples e natural. É até possível criar um roteiro para produções virtuais com várias vozes simultaneamente. As instruções são suportadas em chinês e inglês.

O Xiaomi MiMo-V2.5-ASR de código aberto foi projetado para reconhecimento de fala, mesmo em ambientes desafiadores. Ele suporta diversos dialetos chineses e inglês, pode criar transcrições de diálogos bilíngues e até mesmo gravar letras de músicas, reconhecendo os vocais que acompanham a música. Também consegue reconhecer a fala em ambientes ruidosos. Uma das principais vantagens do Xiaomi MiMo-V2.5-ASR é o suporte à pontuação, que insere sinais de pontuação com base na entonação. Isso significa que uma transcrição completa pode ser produzida com o mínimo de edição.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Cisco vai demitir 4.000 funcionários e, em troca, oferecer-lhes treinamento na plataforma Cisco U.

A Cisco planeja demitir 5% de sua força de trabalho, oferecendo a esses funcionários treinamento…

37 minutos atrás

Robôs-lobos assustadores se tornaram a nova arma do Japão para combater ursos.

O aumento da incidência de ataques de animais selvagens a pessoas no Japão no último…

1 hora atrás

A startup de um cientista da NASA anunciou o desenvolvimento de uma fonte de energia inesgotável que utiliza energia do vácuo.

A startup recém-apresentada, Casimir, anunciou um desenvolvimento notável: uma fonte de energia inesgotável alimentada por…

2 horas atrás

O AMD EPYC conquista uma fatia recorde de 46,2% do mercado de processadores para servidores, tudo graças a agentes de IA.

Os processadores para servidores da AMD demonstraram um sucesso significativo: ao final do primeiro trimestre…

2 horas atrás

Bem-vindos ao Volnapocalipse: a IA está encontrando vulnerabilidades mais rápido do que conseguimos corrigi-las.

A Palo Alto Networks, empresa de cibersegurança sediada na Califórnia, normalmente corrige cinco vulnerabilidades por…

2 horas atrás