VKontakte abriu acesso às suas tecnologias de reconhecimento de voz

Desenvolvedores de terceiros receberam acesso à tecnologia VKontakte, que lê a voz e a traduz em texto. A tecnologia de reconhecimento de fala, ou ASR (Automatic Speech Recognition), é implementada em poucos cliques. Alexander Tobol, diretor técnico da VKontakte, falou sobre isso na abertura da conferência Saint HighLoad ++.

Para reconhecimento, você pode escolher um dos dois modelos. Neutro é bom para fala inteligível, como em um programa de TV ou entrevista, enquanto o espontâneo ajudará quando você precisar processar uma fala mais casual com gírias e palavrões. As redes neurais VKontakte são capazes de remover ruídos e pausas da decodificação, entender a fala ininteligível.

A tecnologia está disponível por meio de uma interface da web em uma página especial ou por meio da API pública do VKontakte. A solução é adequada para startups, projetos independentes, projetos pessoais para aprendizado e autodesenvolvimento.

Como Alexander Tobol disse ao STO VKontakte, todos os meses os usuários enviam mais de 2 bilhões de mensagens de voz – são milhões de horas de áudio processadas pelas redes neurais da empresa. O ASR é usado pelo VKontakte para descriptografar mensagens de voz, gerar legendas em vídeos e recomendações pessoais. Sob o capô, a solução possui três redes neurais ao mesmo tempo: uma é responsável pelo reconhecimento de fala, a segunda encontra palavras adequadas e a terceira coloca sinais de pontuação. A tecnologia é construída de forma a lidar com o processamento diário de centenas de milhões de mensagens de diferentes duração, qualidade e conteúdo. Cada mensagem é descriptografada em cerca de 1,5 segundos após ser enviada.

avalanche

Postagens recentes

Slay the Spire 2 – Adeus Tempo Livre! Prévia / Jogos

Passei mais de quatrocentas horas jogando o primeiro Slay the Spire, e que horas maravilhosas…

2 horas atrás

A nova temporada de Warface, “Steel Quarters”, promete: brutalidade em todas as pistas de patinação!

Warface vem encantando fãs de ação online há quase quatorze anos, e a temporada "Steel…

4 horas atrás

O SoftBank tomou emprestado US$ 40 bilhões por um ano para investir na OpenAI.

O SoftBank Group, holding multinacional japonesa e um dos maiores investidores mundiais no setor de…

5 horas atrás

A Meta construirá sete usinas termelétricas a gás com capacidade total de 5,2 GW para acompanhar a corrida da IA.

Segundo a Bloomberg, a Meta✴ financiará a construção de sete novas usinas termelétricas a gás…

5 horas atrás

“Mandem-me para o futuro para que eu possa jogar este jogo”: Novas imagens de jogabilidade do RPG de ação no estilo Mass Effect, Exodus, deixam os fãs empolgados.

A Archetype Entertainment, veterana da BioWare, divulgou novas imagens de jogabilidade de Exodus, seu ambicioso…

5 horas atrás

Uma vulnerabilidade zero-day perigosa foi descoberta no Telegram, mas os detalhes estão sendo mantidos em segredo.

Michael Deplante, especialista em segurança da informação associado à Zero Day Initiative da TrendAI, descobriu…

5 horas atrás