Categorias: Sem categoria

A legenda e a transcrição ao vivo no Microsoft Teams ficaram ainda melhores com o Microsoft Azure e NVIDIA AI

A plataforma Microsoft Teams ajuda estudantes e profissionais em todo o mundo a conduzir reuniões online usando legendagem ao vivo com tecnologia de IA e transcrição em tempo real. Esses recursos são aprimorados por tecnologias de computação NVIDIA para treinamento de IA e NVIDIA Triton Inference Server para inferência de modelos de reconhecimento de voz.

NVIDIA

O Teams permite que quase 250 milhões de usuários ativos mensais se comuniquem e colaborem em todo o mundo. As conversas nas equipes são legendadas e transcritas em 28 idiomas usando os Serviços Cognitivos do Microsoft Azure. Este processo em breve lançará uma inferência de rede neural computacionalmente intensiva crítica em GPUs NVIDIA.

O recurso de legenda ao vivo ajuda os participantes a acompanhar a conversa em tempo real, enquanto os recursos de transcrição ajudam os participantes a recuperar mais tarde as voltas e reviravoltas da discussão ou recuperar o atraso caso eles estivessem ausentes. As legendas em tempo real podem ser especialmente úteis para participantes surdos ou com deficiência auditiva, ou que não sejam falantes nativos do idioma usado na reunião.

O Teams usa os serviços cognitivos para otimizar os modelos de reconhecimento de voz usando o software de inferência de código aberto NVIDIA Triton.

O Triton permite que os Serviços Cognitivos suportem modelos de linguagem de alta tecnologia, entregando resultados de fala para texto em tempo real altamente personalizados com latência muito baixa. A implementação do Triton garante que as GPUs NVIDIA que executam esses modelos de voz para texto sejam totalmente utilizadas, reduzindo custos e proporcionando maior rendimento com menos recursos de computação.

Alguns dos principais recursos do NVIDIA Triton que permitem que a funcionalidade de legenda e transcrição do Microsoft Teams seja dimensionada para mais reuniões e usuários incluem:

  • Saída de streaming: NVIDIA e Azure Cognitive Services trabalharam juntos para ajustar seu aplicativo de fala para texto com um novo recurso de saída de streaming com estado que pode rastrear o contexto de fala anterior para melhorar a fidelidade das legendas com base na latência.
  • Lote dinâmico: o tamanho do lote é o número de amostras de entrada que a rede neural processa simultaneamente. Com o lote dinâmico no Triton, as solicitações de saída individuais são agrupadas automaticamente para fazer melhor uso dos recursos da GPU sem afetar a latência do modelo.
  • Execução paralela do modelo. A geração e a transcrição de assinaturas em tempo real requerem a execução de vários modelos de aprendizado profundo ao mesmo tempo. O Triton permite que os desenvolvedores façam isso simultaneamente na mesma GPU, mesmo com modelos que usam diferentes plataformas de aprendizado profundo.
avalanche

Postagens recentes

Moscou lançou “listas brancas” de sites durante o bloqueio da internet.

Um sistema de "lista branca" de recursos da internet foi implementado em Moscou em áreas…

1 hora atrás

O iFixit desmontou o MacBook Neo e o considerou o laptop da Apple mais fácil de reparar.

Os especialistas do iFixit desmontaram o novo MacBook Neo e ficaram agradavelmente surpresos com a…

6 horas atrás

Styx: Blades of Greed – As mesmas piadas de goblins de sempre. Análise / Jogos

Nove anos atrás, concluí minha análise do segundo jogo do Styx com as palavras: "Shards…

7 horas atrás

Styx: Blades of Greed – As mesmas piadas de goblins de sempre. Resenha

Há nove anos, concluí minha análise do segundo jogo do Styx com as palavras: "Shards…

7 horas atrás

A Nvidia promete acelerar o ray tracing e o path tracing em um milhão de vezes em futuras GPUs.

Apesar da crescente concorrência da Intel e da AMD, a linha de placas gráficas RTX…

7 horas atrás