VKontakte abriu acesso às suas tecnologias de reconhecimento de voz

Desenvolvedores de terceiros receberam acesso à tecnologia VKontakte, que lê a voz e a traduz em texto. A tecnologia de reconhecimento de fala, ou ASR (Automatic Speech Recognition), é implementada em poucos cliques. Alexander Tobol, diretor técnico da VKontakte, falou sobre isso na abertura da conferência Saint HighLoad ++.

Para reconhecimento, você pode escolher um dos dois modelos. Neutro é bom para fala inteligível, como em um programa de TV ou entrevista, enquanto o espontâneo ajudará quando você precisar processar uma fala mais casual com gírias e palavrões. As redes neurais VKontakte são capazes de remover ruídos e pausas da decodificação, entender a fala ininteligível.

A tecnologia está disponível por meio de uma interface da web em uma página especial ou por meio da API pública do VKontakte. A solução é adequada para startups, projetos independentes, projetos pessoais para aprendizado e autodesenvolvimento.

Como Alexander Tobol disse ao STO VKontakte, todos os meses os usuários enviam mais de 2 bilhões de mensagens de voz – são milhões de horas de áudio processadas pelas redes neurais da empresa. O ASR é usado pelo VKontakte para descriptografar mensagens de voz, gerar legendas em vídeos e recomendações pessoais. Sob o capô, a solução possui três redes neurais ao mesmo tempo: uma é responsável pelo reconhecimento de fala, a segunda encontra palavras adequadas e a terceira coloca sinais de pontuação. A tecnologia é construída de forma a lidar com o processamento diário de centenas de milhões de mensagens de diferentes duração, qualidade e conteúdo. Cada mensagem é descriptografada em cerca de 1,5 segundos após ser enviada.

avalanche

Postagens recentes

GeForce RTX 4060 se torna a GPU mais popular no Steam, participação no Windows 11 ultrapassa 60% pela primeira vez

A plataforma de jogos Steam publicou novas estatísticas sobre as configurações dos computadores de seus…

38 minutos atrás

Novo vazamento desclassifica o Lenovo Legion Go 2 — novos detalhes sobre tela, controles e acessórios

O informante Evan Blass (@evleaks) publicou várias imagens novas do console portátil Lenovo Legion Go…

2 horas atrás

O YouTube começou a bloquear assinaturas Premium familiares caso seus membros não morem juntos

O plano Família do YouTube Premium permite que você compartilhe os recursos da assinatura paga…

2 horas atrás

7 em cada 10 pessoas agora acessam a internet pelo Google Chrome — Edge e Safari estão muito atrás

De acordo com estatísticas da Statcounter de agosto de 2025, o navegador Chrome do Google…

2 horas atrás

Capcom culpa queda nas vendas de Monster Hunter Wilds no preço do PS5

O presidente da Capcom, Haruhiro Tsujimoto, comentou sobre a queda acentuada nas vendas do jogo…

2 horas atrás

Seduções, funerais e divórcios fracassados: Paradox revela as estatísticas dos jogadores de Crusader Kings 3 no ano passado

Cinco anos se passaram desde o lançamento da estratégia histórica global Crusader Kings 3 e,…

3 horas atrás