A Microsoft revelou seu projeto de IA de código aberto, o VibeVoice, um novo sistema de síntese de voz que pode gerar podcasts de áudio de até 90 minutos em inglês ou chinês a partir de texto. A tecnologia já está disponível para qualquer pessoa testar online ou instalando-a em seu dispositivo local.
Fonte da imagem: AI
Os desenvolvedores descreveram o VibeVoice como uma estrutura inovadora projetada para gerar conteúdo de áudio multiparticipante de longo prazo diretamente a partir de texto. De acordo com o Windows Central, o sistema aborda problemas essenciais dos sintetizadores tradicionais de conversão de texto em fala (TTS), como escalabilidade, consistência das características de voz e naturalidade do diálogo. O modelo é capaz de sintetizar áudio de até 90 minutos de duração com até quatro vozes distintas, superando as limitações de 1 ou 2 falantes de muitos modelos de IA anteriores.
Atualmente, duas versões do modelo estão disponíveis para testes: uma com 1,5 bilhão de parâmetros e outra com 7 bilhões de parâmetros. A primeira pode gerar até 90 minutos de áudio com um comprimento de contexto de 64 mil tokens, enquanto a segunda, supostamente de maior qualidade devido ao seu tamanho maior, é limitada a 45 minutos e uma janela de 32 mil tokens. Uma versão mais leve, com 0,5 bilhão de parâmetros, projetada para operação em tempo real, também deve ser lançada. Para operação local, o modelo menor requer cerca de 7 GB de memória de vídeo, enquanto o maior pode exigir até 18 GB de VRAM.
No momento, o modelo de IA do VibeVoice é treinado apenas em inglês e chinês, incluindo mandarim (chinês do norte ou mandarim). No entanto, a Microsoft observa que versões futuras estão planejadas para expandir o suporte a outros idiomas. O sistema é capaz de transmitir emoções, gerenciar a troca de falas entre os participantes e gerar diálogos naturais, embora as tentativas de reproduzir música tenham sido infrutíferas até o momento. As vozes soam bastante realistas, mas sua origem artificial permanece perceptível. No futuro, os desenvolvedores estão considerando a possibilidade de integrar uma função de clonagem de voz.
Os desenvolvedores observam que, quando a versão de streaming da geração de áudio for lançada, o VibeVoice poderá ser integrado a assistentes de bate-papo, eliminando a necessidade de servidores externos. Informações adicionais, incluindo instruções de instalação e configuração, estão disponíveis no repositório oficial do VibeVoice no GitHub e na plataforma Hugging Face.
Elon Musk, conhecido por suas ambições nada modestas, está demonstrando-as no setor de IA, desenvolvendo…
O último trimestre foi marcado por uma mudança significativa na política de controle de exportações…
Conforme noticiado anteriormente, a corporação japonesa SoftBank começou a buscar freneticamente fundos no final do…
Em meio à corrida global pela liderança em inteligência artificial, gigantes chinesas da tecnologia têm…
Anunciados há alguns meses, os processadores Snapdragon X2 Elite de última geração da Qualcomm para…
Anunciados há alguns meses, os processadores Snapdragon X2 Elite de última geração da Qualcomm para…