Categorias: Sem categoria

A legenda e a transcrição ao vivo no Microsoft Teams ficaram ainda melhores com o Microsoft Azure e NVIDIA AI

A plataforma Microsoft Teams ajuda estudantes e profissionais em todo o mundo a conduzir reuniões online usando legendagem ao vivo com tecnologia de IA e transcrição em tempo real. Esses recursos são aprimorados por tecnologias de computação NVIDIA para treinamento de IA e NVIDIA Triton Inference Server para inferência de modelos de reconhecimento de voz.

NVIDIA

O Teams permite que quase 250 milhões de usuários ativos mensais se comuniquem e colaborem em todo o mundo. As conversas nas equipes são legendadas e transcritas em 28 idiomas usando os Serviços Cognitivos do Microsoft Azure. Este processo em breve lançará uma inferência de rede neural computacionalmente intensiva crítica em GPUs NVIDIA.

O recurso de legenda ao vivo ajuda os participantes a acompanhar a conversa em tempo real, enquanto os recursos de transcrição ajudam os participantes a recuperar mais tarde as voltas e reviravoltas da discussão ou recuperar o atraso caso eles estivessem ausentes. As legendas em tempo real podem ser especialmente úteis para participantes surdos ou com deficiência auditiva, ou que não sejam falantes nativos do idioma usado na reunião.

O Teams usa os serviços cognitivos para otimizar os modelos de reconhecimento de voz usando o software de inferência de código aberto NVIDIA Triton.

O Triton permite que os Serviços Cognitivos suportem modelos de linguagem de alta tecnologia, entregando resultados de fala para texto em tempo real altamente personalizados com latência muito baixa. A implementação do Triton garante que as GPUs NVIDIA que executam esses modelos de voz para texto sejam totalmente utilizadas, reduzindo custos e proporcionando maior rendimento com menos recursos de computação.

Alguns dos principais recursos do NVIDIA Triton que permitem que a funcionalidade de legenda e transcrição do Microsoft Teams seja dimensionada para mais reuniões e usuários incluem:

  • Saída de streaming: NVIDIA e Azure Cognitive Services trabalharam juntos para ajustar seu aplicativo de fala para texto com um novo recurso de saída de streaming com estado que pode rastrear o contexto de fala anterior para melhorar a fidelidade das legendas com base na latência.
  • Lote dinâmico: o tamanho do lote é o número de amostras de entrada que a rede neural processa simultaneamente. Com o lote dinâmico no Triton, as solicitações de saída individuais são agrupadas automaticamente para fazer melhor uso dos recursos da GPU sem afetar a latência do modelo.
  • Execução paralela do modelo. A geração e a transcrição de assinaturas em tempo real requerem a execução de vários modelos de aprendizado profundo ao mesmo tempo. O Triton permite que os desenvolvedores façam isso simultaneamente na mesma GPU, mesmo com modelos que usam diferentes plataformas de aprendizado profundo.
avalanche

Postagens recentes

A Microsoft admitiu que o Copilot é para entretenimento, não para tarefas profissionais.

A Microsoft aconselha os usuários a não confiarem no Copilot para recomendações importantes, observando que…

26 minutos atrás

A editora de GTA VI demitiu inesperadamente seu chefe de IA e sua equipe.

Luke Dicken, chefe de inteligência artificial da editora americana Take-Two Interactive, anunciou que ele e…

41 minutos atrás

O branqueamento da ponta dos dedos transformará qualquer superfície em um touchpad de realidade aumentada.

Quando uma pessoa pressiona as pontas dos dedos contra uma superfície dura, elas ficam brancas.…

59 minutos atrás

A Anysphere lançou seu assistente de codificação com IA, o Cursor 3.

A startup Anysphere apresentou uma nova versão de seu assistente de codificação com IA, o…

59 minutos atrás