Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Microsoft revela VibeVoice, IA de código aberto que transforma texto em podcasts de uma hora e meia

A Microsoft revelou seu projeto de IA de código aberto, o VibeVoice, um novo sistema de síntese de voz que pode gerar podcasts de áudio de até 90 minutos em inglês ou chinês a partir de texto. A tecnologia já está disponível para qualquer pessoa testar online ou instalando-a em seu dispositivo local.

Fonte da imagem: AI

Os desenvolvedores descreveram o VibeVoice como uma estrutura inovadora projetada para gerar conteúdo de áudio multiparticipante de longo prazo diretamente a partir de texto. De acordo com o Windows Central, o sistema aborda problemas essenciais dos sintetizadores tradicionais de conversão de texto em fala (TTS), como escalabilidade, consistência das características de voz e naturalidade do diálogo. O modelo é capaz de sintetizar áudio de até 90 minutos de duração com até quatro vozes distintas, superando as limitações de 1 ou 2 falantes de muitos modelos de IA anteriores.

Atualmente, duas versões do modelo estão disponíveis para testes: uma com 1,5 bilhão de parâmetros e outra com 7 bilhões de parâmetros. A primeira pode gerar até 90 minutos de áudio com um comprimento de contexto de 64 mil tokens, enquanto a segunda, supostamente de maior qualidade devido ao seu tamanho maior, é limitada a 45 minutos e uma janela de 32 mil tokens. Uma versão mais leve, com 0,5 bilhão de parâmetros, projetada para operação em tempo real, também deve ser lançada. Para operação local, o modelo menor requer cerca de 7 GB de memória de vídeo, enquanto o maior pode exigir até 18 GB de VRAM.

No momento, o modelo de IA do VibeVoice é treinado apenas em inglês e chinês, incluindo mandarim (chinês do norte ou mandarim). No entanto, a Microsoft observa que versões futuras estão planejadas para expandir o suporte a outros idiomas. O sistema é capaz de transmitir emoções, gerenciar a troca de falas entre os participantes e gerar diálogos naturais, embora as tentativas de reproduzir música tenham sido infrutíferas até o momento. As vozes soam bastante realistas, mas sua origem artificial permanece perceptível. No futuro, os desenvolvedores estão considerando a possibilidade de integrar uma função de clonagem de voz.

Os desenvolvedores observam que, quando a versão de streaming da geração de áudio for lançada, o VibeVoice poderá ser integrado a assistentes de bate-papo, eliminando a necessidade de servidores externos. Informações adicionais, incluindo instruções de instalação e configuração, estão disponíveis no repositório oficial do VibeVoice no GitHub e na plataforma Hugging Face.

admin

Próximo O jogo de tiro de ficção científica Moros Protocol, inspirado em Doom e Half-Life, se tornou a mais nova vítima de Hollow Knight: Silksong »

Anterior « Rapidus lançará a produção de chips de 2 nm mais rápida do mundo - do design ao cristal em apenas duas semanas

Deixar comentário

Publicado por

admin

7 meses atrás

Postagens recentes

Clientes de MI

O Telegram lançou sua atualização mais recente, trazendo um editor de IA, suporte para fotos ao vivo, bots controláveis e muito mais.

Os administradores do aplicativo de mensagens Telegram anunciaram o lançamento de sua atualização mais recente.…

43 minutos atrás

Espaço

A França compra a Bull, desenvolvedora de supercomputadores, da Atos.

O Grupo Atos anunciou a conclusão da venda de sua divisão Bull, uma empresa líder…

2 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A participação de fornecedores locais de chips de IA no mercado chinês aumentou para 41% no ano passado.

Ao defender os interesses de sua empresa, o fundador da Nvidia, Jensen Huang, afirmou que,…

2 horas atrás

Mercado de TI

As dez maiores fabricantes de chips fabless aumentaram sua receita em 44% no ano passado.

O segundo trimestre de 2026 já começou, mas analistas de alguns setores ainda estão contabilizando…

2 horas atrás

Jogos

Um analista de dados revelou a “quantidade impressionante de trabalho” que a Valve dedicou a Half-Life 3.

O blogueiro e minerador de dados Tyler McVicker compartilhou mais descobertas da comunidade sobre o…

2 horas atrás

Eventos e eventos da indústria de TI, exposições, fóruns

A AMD destacará seus novos avanços em IA na conferência Advancing AI 2026 em julho.

A AMD agendou a conferência Advancing AI 2026. O evento, dedicado a tecnologias de IA,…

2 horas atrás

Microsoft revela VibeVoice, IA de código aberto que transforma texto em podcasts de uma hora e meia

Conteúdo relacionado

Postagens recentes

O Telegram lançou sua atualização mais recente, trazendo um editor de IA, suporte para fotos ao vivo, bots controláveis ​​e muito mais.

A França compra a Bull, desenvolvedora de supercomputadores, da Atos.

A participação de fornecedores locais de chips de IA no mercado chinês aumentou para 41% no ano passado.

As dez maiores fabricantes de chips fabless aumentaram sua receita em 44% no ano passado.

Um analista de dados revelou a “quantidade impressionante de trabalho” que a Valve dedicou a Half-Life 3.

A AMD destacará seus novos avanços em IA na conferência Advancing AI 2026 em julho.

O Telegram lançou sua atualização mais recente, trazendo um editor de IA, suporte para fotos ao vivo, bots controláveis e muito mais.