VKontakte abriu acesso às suas tecnologias de reconhecimento de voz

Desenvolvedores de terceiros receberam acesso à tecnologia VKontakte, que lê a voz e a traduz em texto. A tecnologia de reconhecimento de fala, ou ASR (Automatic Speech Recognition), é implementada em poucos cliques. Alexander Tobol, diretor técnico da VKontakte, falou sobre isso na abertura da conferência Saint HighLoad ++.

Para reconhecimento, você pode escolher um dos dois modelos. Neutro é bom para fala inteligível, como em um programa de TV ou entrevista, enquanto o espontâneo ajudará quando você precisar processar uma fala mais casual com gírias e palavrões. As redes neurais VKontakte são capazes de remover ruídos e pausas da decodificação, entender a fala ininteligível.

A tecnologia está disponível por meio de uma interface da web em uma página especial ou por meio da API pública do VKontakte. A solução é adequada para startups, projetos independentes, projetos pessoais para aprendizado e autodesenvolvimento.

Como Alexander Tobol disse ao STO VKontakte, todos os meses os usuários enviam mais de 2 bilhões de mensagens de voz – são milhões de horas de áudio processadas pelas redes neurais da empresa. O ASR é usado pelo VKontakte para descriptografar mensagens de voz, gerar legendas em vídeos e recomendações pessoais. Sob o capô, a solução possui três redes neurais ao mesmo tempo: uma é responsável pelo reconhecimento de fala, a segunda encontra palavras adequadas e a terceira coloca sinais de pontuação. A tecnologia é construída de forma a lidar com o processamento diário de centenas de milhões de mensagens de diferentes duração, qualidade e conteúdo. Cada mensagem é descriptografada em cerca de 1,5 segundos após ser enviada.

avalanche

Postagens recentes

Os desenvolvedores de Deus Ex: Mankind Divided assumiram um projeto de nível AAAA – um jogo de tiro em mundo aberto suspeitosamente semelhante ao cancelado Wild.

Como parte da onda de demissões de dezembro, o estúdio Eidos Montreal, pertencente ao Embracer…

25 minutos atrás

Os EUA são líderes no desenvolvimento de centros de dados, mas o ritmo de crescimento na China permanece um mistério.

Atualmente, 1.947 novos projetos de data centers estão em andamento em todo o mundo —…

2 horas atrás

A primeira atualização do Windows 11 de 2026 foi lançada.

A Microsoft lançou as primeiras atualizações de segurança para o Windows 11 em 2026, que…

2 horas atrás

Golpistas de criptomoedas roubaram US$ 17 bilhões em 2025 – graças à inteligência artificial, o valor médio dos golpes aumentou 253%.

2025 foi o ano do maior aumento na receita proveniente de fraudes com criptomoedas. Analistas…

2 horas atrás

As vendas de veículos elétricos e híbridos cresceram 20% no ano passado, apesar do ceticismo.

No ano passado, a mídia começou a promover ativamente o tema da queda na demanda…

2 horas atrás