A Microsoft revelou seu projeto de IA de código aberto, o VibeVoice, um novo sistema de síntese de voz que pode gerar podcasts de áudio de até 90 minutos em inglês ou chinês a partir de texto. A tecnologia já está disponível para qualquer pessoa testar online ou instalando-a em seu dispositivo local.
Fonte da imagem: AI
Os desenvolvedores descreveram o VibeVoice como uma estrutura inovadora projetada para gerar conteúdo de áudio multiparticipante de longo prazo diretamente a partir de texto. De acordo com o Windows Central, o sistema aborda problemas essenciais dos sintetizadores tradicionais de conversão de texto em fala (TTS), como escalabilidade, consistência das características de voz e naturalidade do diálogo. O modelo é capaz de sintetizar áudio de até 90 minutos de duração com até quatro vozes distintas, superando as limitações de 1 ou 2 falantes de muitos modelos de IA anteriores.
Atualmente, duas versões do modelo estão disponíveis para testes: uma com 1,5 bilhão de parâmetros e outra com 7 bilhões de parâmetros. A primeira pode gerar até 90 minutos de áudio com um comprimento de contexto de 64 mil tokens, enquanto a segunda, supostamente de maior qualidade devido ao seu tamanho maior, é limitada a 45 minutos e uma janela de 32 mil tokens. Uma versão mais leve, com 0,5 bilhão de parâmetros, projetada para operação em tempo real, também deve ser lançada. Para operação local, o modelo menor requer cerca de 7 GB de memória de vídeo, enquanto o maior pode exigir até 18 GB de VRAM.
No momento, o modelo de IA do VibeVoice é treinado apenas em inglês e chinês, incluindo mandarim (chinês do norte ou mandarim). No entanto, a Microsoft observa que versões futuras estão planejadas para expandir o suporte a outros idiomas. O sistema é capaz de transmitir emoções, gerenciar a troca de falas entre os participantes e gerar diálogos naturais, embora as tentativas de reproduzir música tenham sido infrutíferas até o momento. As vozes soam bastante realistas, mas sua origem artificial permanece perceptível. No futuro, os desenvolvedores estão considerando a possibilidade de integrar uma função de clonagem de voz.
Os desenvolvedores observam que, quando a versão de streaming da geração de áudio for lançada, o VibeVoice poderá ser integrado a assistentes de bate-papo, eliminando a necessidade de servidores externos. Informações adicionais, incluindo instruções de instalação e configuração, estão disponíveis no repositório oficial do VibeVoice no GitHub e na plataforma Hugging Face.
A Scality, especialista em armazenamento definido por software (SDS), revelou detalhes de uma nova classe…
A Stardust Solutions, empresa especializada em tecnologias de geoengenharia, propôs uma solução que, segundo ela,…
A Figure AI relatou que, durante os testes, seus robôs humanoides operaram por mais de…
A Comissão Federal de Comércio dos EUA (FTC, na sigla em inglês) iniciou uma investigação…
Um overclocker chinês apelidado de "Wytiwx" estabeleceu um novo recorde mundial de overclock de CPU,…
Em uma versão de teste do Windows lançada recentemente, os desenvolvedores implementaram diversos recursos muito…