Microsoft revela VibeVoice, IA de código aberto que transforma texto em podcasts de uma hora e meia

A Microsoft revelou seu projeto de IA de código aberto, o VibeVoice, um novo sistema de síntese de voz que pode gerar podcasts de áudio de até 90 minutos em inglês ou chinês a partir de texto. A tecnologia já está disponível para qualquer pessoa testar online ou instalando-a em seu dispositivo local.

Fonte da imagem: AI

Os desenvolvedores descreveram o VibeVoice como uma estrutura inovadora projetada para gerar conteúdo de áudio multiparticipante de longo prazo diretamente a partir de texto. De acordo com o Windows Central, o sistema aborda problemas essenciais dos sintetizadores tradicionais de conversão de texto em fala (TTS), como escalabilidade, consistência das características de voz e naturalidade do diálogo. O modelo é capaz de sintetizar áudio de até 90 minutos de duração com até quatro vozes distintas, superando as limitações de 1 ou 2 falantes de muitos modelos de IA anteriores.

Atualmente, duas versões do modelo estão disponíveis para testes: uma com 1,5 bilhão de parâmetros e outra com 7 bilhões de parâmetros. A primeira pode gerar até 90 minutos de áudio com um comprimento de contexto de 64 mil tokens, enquanto a segunda, supostamente de maior qualidade devido ao seu tamanho maior, é limitada a 45 minutos e uma janela de 32 mil tokens. Uma versão mais leve, com 0,5 bilhão de parâmetros, projetada para operação em tempo real, também deve ser lançada. Para operação local, o modelo menor requer cerca de 7 GB de memória de vídeo, enquanto o maior pode exigir até 18 GB de VRAM.

No momento, o modelo de IA do VibeVoice é treinado apenas em inglês e chinês, incluindo mandarim (chinês do norte ou mandarim). No entanto, a Microsoft observa que versões futuras estão planejadas para expandir o suporte a outros idiomas. O sistema é capaz de transmitir emoções, gerenciar a troca de falas entre os participantes e gerar diálogos naturais, embora as tentativas de reproduzir música tenham sido infrutíferas até o momento. As vozes soam bastante realistas, mas sua origem artificial permanece perceptível. No futuro, os desenvolvedores estão considerando a possibilidade de integrar uma função de clonagem de voz.

Os desenvolvedores observam que, quando a versão de streaming da geração de áudio for lançada, o VibeVoice poderá ser integrado a assistentes de bate-papo, eliminando a necessidade de servidores externos. Informações adicionais, incluindo instruções de instalação e configuração, estão disponíveis no repositório oficial do VibeVoice no GitHub e na plataforma Hugging Face.

admin

Postagens recentes

A soberania tecnológica da UE terá um custo elevado para os consumidores, alertaram os fabricantes de automóveis europeus.

No mês passado, as autoridades europeias apresentaram um pacote de projetos de lei com o…

1 hora atrás

“Lordes Capitães, ouvimos seus comentários”: A Owlcat Games removeu o inicializador de Warhammer 40.000: Rogue Trader um dia após o lançamento.

A Owlcat Games, um estúdio cipriota com raízes russas, anunciou o recolhimento do seu Owlcat…

1 hora atrás

A Meta enfrenta multas bilionárias na União Europeia por incitar o vício em redes sociais entre adolescentes.

Em maio de 2024, a Comissão Europeia iniciou uma investigação sobre as Meta✴Platforms, levantando a…

1 hora atrás

Shah Shah, CEO do WhatsApp e fundador da startup indiana de tecnologia financeira, deixará o cargo.

Will Cathcart, que liderou o WhatsApp nos últimos sete anos, assumirá outra posição na Meta✴,…

1 hora atrás

O Firefox Mobile agora oferece resumo da página ao agitar seu smartphone.

A Mozilla lançou a atualização mais recente do navegador Firefox, a versão 152.0. Uma das…

2 horas atrás