A plataforma Microsoft Teams ajuda estudantes e profissionais em todo o mundo a conduzir reuniões online usando legendagem ao vivo com tecnologia de IA e transcrição em tempo real. Esses recursos são aprimorados por tecnologias de computação NVIDIA para treinamento de IA e NVIDIA Triton Inference Server para inferência de modelos de reconhecimento de voz.
NVIDIA
O Teams permite que quase 250 milhões de usuários ativos mensais se comuniquem e colaborem em todo o mundo. As conversas nas equipes são legendadas e transcritas em 28 idiomas usando os Serviços Cognitivos do Microsoft Azure. Este processo em breve lançará uma inferência de rede neural computacionalmente intensiva crítica em GPUs NVIDIA.
O recurso de legenda ao vivo ajuda os participantes a acompanhar a conversa em tempo real, enquanto os recursos de transcrição ajudam os participantes a recuperar mais tarde as voltas e reviravoltas da discussão ou recuperar o atraso caso eles estivessem ausentes. As legendas em tempo real podem ser especialmente úteis para participantes surdos ou com deficiência auditiva, ou que não sejam falantes nativos do idioma usado na reunião.
O Teams usa os serviços cognitivos para otimizar os modelos de reconhecimento de voz usando o software de inferência de código aberto NVIDIA Triton.
O Triton permite que os Serviços Cognitivos suportem modelos de linguagem de alta tecnologia, entregando resultados de fala para texto em tempo real altamente personalizados com latência muito baixa. A implementação do Triton garante que as GPUs NVIDIA que executam esses modelos de voz para texto sejam totalmente utilizadas, reduzindo custos e proporcionando maior rendimento com menos recursos de computação.
Alguns dos principais recursos do NVIDIA Triton que permitem que a funcionalidade de legenda e transcrição do Microsoft Teams seja dimensionada para mais reuniões e usuários incluem:
- Saída de streaming: NVIDIA e Azure Cognitive Services trabalharam juntos para ajustar seu aplicativo de fala para texto com um novo recurso de saída de streaming com estado que pode rastrear o contexto de fala anterior para melhorar a fidelidade das legendas com base na latência.
- Lote dinâmico: o tamanho do lote é o número de amostras de entrada que a rede neural processa simultaneamente. Com o lote dinâmico no Triton, as solicitações de saída individuais são agrupadas automaticamente para fazer melhor uso dos recursos da GPU sem afetar a latência do modelo.
- Execução paralela do modelo. A geração e a transcrição de assinaturas em tempo real requerem a execução de vários modelos de aprendizado profundo ao mesmo tempo. O Triton permite que os desenvolvedores façam isso simultaneamente na mesma GPU, mesmo com modelos que usam diferentes plataformas de aprendizado profundo.
