A equipe de desenvolvimento do Yandex anunciou as próximas melhorias na tecnologia para tradução fora da tela de vídeos em idiomas estrangeiros e a inclusão do suporte para tradução simultânea usando 12 vozes – seis masculinas e seis femininas.

Fonte da imagem: Yandex
O sistema de locução é integrado ao Yandex.Browser e faz pleno uso de tecnologias de aprendizado de máquina e inteligência artificial baseadas em redes neurais.
Para reconhecer diferentes falantes no vídeo, duas redes neurais são usadas: primeiro, uma delas traduz a fala em texto, restaura a pontuação e determina os limites das frases, depois a segunda analisa o espectrograma da voz e marca fragmentos falados por diferentes pessoas no vídeo. a faixa de áudio. Assim, fica claro qual dos palestrantes disse o quê, e fica muito mais fácil perceber a tradução de um vídeo com grande número de caracteres.
«Estamos constantemente trabalhando na qualidade da tradução e dublagem para dar aos nossos usuários acesso a qualquer conteúdo de todo o mundo. De acordo com nossas estimativas, cerca de metade dos vídeos do YouTube em idiomas estrangeiros são vídeos com três ou mais falantes. Não é muito conveniente assisti-los com dublagem de duas vozes – é por isso que fizemos dez novas vozes ”, dizem eles no Yandex.
Atualmente, o sistema de voz Yandex suporta inglês, francês, alemão, espanhol e italiano. A empresa planeja adicionar novos pares de idiomas e expandir a funcionalidade do produto.
