Meta ensinou o modelo SeamlessM4T AI a traduzir texto e fala de forma mais rápida e natural

Meta✴ atualizou seu modelo SeamlessM4T AI projetado para tradução de fala e texto. Agora a plataforma suporta traduções em quase 100 idiomas, incluindo russo, em formato de texto e 36 em idioma falado. Com a nova arquitetura de solução, a gigante tecnológica pretende tornar a tradução mais natural e expressiva, o que promete ser um avanço na comunicação humana e na produção de conteúdos.

Fonte da imagem: Meta✴

Meta✴ construiu SeamlessM4T em cima de sua arquitetura de modelo rica em recursos UnitY baseada em PyTorch, que executa várias traduções modais, bem como reconhecimento automático de fala. Ele usa o sistema BERT 2.0 para codificação de áudio, dividindo os dados de entrada em tokens de componentes para análise e um vocoder de unidade HiFi-GAN para gerar respostas de voz.

O primeiro dos dois novos recursos do SeamlessM4T é chamado SeamlessExpression. Como o nome sugere, transfere as entonações emocionais da voz para o discurso traduzido. O sistema leva em consideração componentes como o tom da fala, seu volume, coloração emocional (excitação, tristeza ou sussurro), velocidade da fala e pausas. Tudo isso torna as traduções menos mecânicas e mais vivas. Os idiomas suportados são inglês, espanhol, alemão, francês, italiano e chinês.

O segundo recurso, SeamlessStreaming, começa a traduzir a fala enquanto o locutor ainda está falando, permitindo que outros ouvintes ouçam a tradução mais rapidamente. O atraso é de pouco menos de dois segundos. Segundo Meta✴, a principal dificuldade aqui foi a diferença na estrutura das frases nos diferentes idiomas, por isso foi desenvolvido um algoritmo especial que analisa fragmentos de áudio incompletos e decide se há contexto suficiente para começar a gerar uma tradução ou se vale a pena ouvir para o orador.

Como a maioria dos esforços anteriores de tradução automática do Meta✴, seja Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) ou o ambicioso projeto No Language Left Behind (NLLB), o SeamlessM4T é de código aberto no GitHub. “Acreditamos que o SeamlessM4T é um avanço importante na busca da comunidade de IA para criar sistemas universais e ricos em recursos”, escreveu a equipe de pesquisa.

O desenvolvimento de tecnologias de IA pela Meta✴ para tradução de vários idiomas abre novas perspectivas no campo da comunicação interlinguística. Estas inovações têm o potencial de superar significativamente as soluções existentes, como as ferramentas de tradução desenvolvidas pela Google e pela Samsung. Ainda não há informações exatas sobre quando o Meta✴ apresentará esses recursos, mas seu potencial uso, por exemplo nos óculos inteligentes Meta✴, promete torná-los indispensáveis ​​​​no dia a dia e no âmbito profissional.

avalanche

Postagens recentes

O Substack sofreu um vazamento de dados de usuários no outono, que só foi descoberto em fevereiro.

O Substack, um serviço popular que permite a blogueiros e jornalistas criar conteúdo e enviá-lo…

47 minutos atrás

Rumores: Versão de Starfield para PS5 em breve, lançamento para Switch 2 em risco.

A desenvolvedora Bethesda Game Studios tem demorado a confirmar o lançamento de seu RPG espacial…

1 hora atrás

Contrariando a tradição, a SpaceX pretende ser listada nos índices de ações imediatamente após seu IPO.

Assessores da SpaceX, empresa de Elon Musk que recentemente se fundiu com sua startup xAI,…

1 hora atrás

Alphacool apresenta Apex Thermal Putty X1 Liquid Thermal Pads

A Alphacool, especialista em refrigeração líquida, lançou o Apex Thermal Putty X1, uma alternativa altamente…

2 horas atrás

“Robôs precisam do seu corpo”: RentAHuman.ai permitirá que agentes de IA contratem pessoas para trabalhos no mundo real.

O engenheiro de software Alexander Liteplo anunciou o lançamento do RentAHuman.ai, uma plataforma para agentes…

2 horas atrás

A Sony aprendeu a ganhar dinheiro sem aumentar as vendas – as assinaturas compensaram uma queda de 16% nas remessas do PS5.

A Sony aumentou sua receita em 1%, para US$ 23,68 bilhões no último trimestre, mas…

3 horas atrás