VKontakte abriu acesso às suas tecnologias de reconhecimento de voz

Desenvolvedores de terceiros receberam acesso à tecnologia VKontakte, que lê a voz e a traduz em texto. A tecnologia de reconhecimento de fala, ou ASR (Automatic Speech Recognition), é implementada em poucos cliques. Alexander Tobol, diretor técnico da VKontakte, falou sobre isso na abertura da conferência Saint HighLoad ++.

Para reconhecimento, você pode escolher um dos dois modelos. Neutro é bom para fala inteligível, como em um programa de TV ou entrevista, enquanto o espontâneo ajudará quando você precisar processar uma fala mais casual com gírias e palavrões. As redes neurais VKontakte são capazes de remover ruídos e pausas da decodificação, entender a fala ininteligível.

A tecnologia está disponível por meio de uma interface da web em uma página especial ou por meio da API pública do VKontakte. A solução é adequada para startups, projetos independentes, projetos pessoais para aprendizado e autodesenvolvimento.

Como Alexander Tobol disse ao STO VKontakte, todos os meses os usuários enviam mais de 2 bilhões de mensagens de voz – são milhões de horas de áudio processadas pelas redes neurais da empresa. O ASR é usado pelo VKontakte para descriptografar mensagens de voz, gerar legendas em vídeos e recomendações pessoais. Sob o capô, a solução possui três redes neurais ao mesmo tempo: uma é responsável pelo reconhecimento de fala, a segunda encontra palavras adequadas e a terceira coloca sinais de pontuação. A tecnologia é construída de forma a lidar com o processamento diário de centenas de milhões de mensagens de diferentes duração, qualidade e conteúdo. Cada mensagem é descriptografada em cerca de 1,5 segundos após ser enviada.

avalanche

Postagens recentes

Sem a escassez de HBM: a Positron AI está preparando um acelerador Asimov AI com terabytes de LPDRR5x.

A Positron AI anunciou que captou US$ 230 milhões em uma rodada de financiamento Série…

1 hora atrás

Por enquanto, não haverá novas placas GeForce RTX, e a Nvidia também reduzirá a produção das placas gráficas existentes em 30 a 40%.

O boom da IA ​​causou não apenas escassez de memória, mas também alta demanda pelos…

2 horas atrás

A Microsoft ocultou as configurações de armazenamento do Windows 11 dos usuários comuns.

A Microsoft atualizou as regras de segurança do Windows 11. Agora, são necessários privilégios de…

2 horas atrás

Filmes para a Lua estão a caminho: a NASA permitiu que astronautas levassem smartphones para o espaço pela primeira vez.

A área aeroespacial é considerada tecnologicamente avançada, mas dispositivos comuns e banais como smartphones eram…

3 horas atrás

Em vez de Baldur’s Gate 4, da Larian, será lançada uma série baseada em Baldur’s Gate 3 pela HBO e pelo co-criador de The Last of Us.

O estúdio belga Larian Studios, liderado por Swen Vincke, cancelou Baldur's Gate 4, mas uma…

3 horas atrás