Desenvolvedores de terceiros receberam acesso à tecnologia VKontakte, que lê a voz e a traduz em texto. A tecnologia de reconhecimento de fala, ou ASR (Automatic Speech Recognition), é implementada em poucos cliques. Alexander Tobol, diretor técnico da VKontakte, falou sobre isso na abertura da conferência Saint HighLoad ++.
Para reconhecimento, você pode escolher um dos dois modelos. Neutro é bom para fala inteligível, como em um programa de TV ou entrevista, enquanto o espontâneo ajudará quando você precisar processar uma fala mais casual com gírias e palavrões. As redes neurais VKontakte são capazes de remover ruídos e pausas da decodificação, entender a fala ininteligível.
A tecnologia está disponível por meio de uma interface da web em uma página especial ou por meio da API pública do VKontakte. A solução é adequada para startups, projetos independentes, projetos pessoais para aprendizado e autodesenvolvimento.
Como Alexander Tobol disse ao STO VKontakte, todos os meses os usuários enviam mais de 2 bilhões de mensagens de voz – são milhões de horas de áudio processadas pelas redes neurais da empresa. O ASR é usado pelo VKontakte para descriptografar mensagens de voz, gerar legendas em vídeos e recomendações pessoais. Sob o capô, a solução possui três redes neurais ao mesmo tempo: uma é responsável pelo reconhecimento de fala, a segunda encontra palavras adequadas e a terceira coloca sinais de pontuação. A tecnologia é construída de forma a lidar com o processamento diário de centenas de milhões de mensagens de diferentes duração, qualidade e conteúdo. Cada mensagem é descriptografada em cerca de 1,5 segundos após ser enviada.
A Apple lançará um novo iPhone este mês, segundo reportagem do Macwelt, citando fontes confiáveis.…
Esta semana, as principais empresas de computação em nuvem dos EUA divulgaram seus resultados trimestrais…
Ao longo de sua existência, a Razer se consolidou como uma das primeiras marcas focadas…
Cientistas chineses do Instituto Noroeste de Tecnologia Nuclear em Xi'an desenvolveram o TPG1000Cs, que pode…
A Logos Space Services, sediada em Redwood City, Califórnia, recebeu aprovação da Comissão Federal de…
A JLab, conhecida por seus fones de ouvido compactos, acessíveis e altamente funcionais, totalmente sem…