A Meta* lançou um modelo de inteligência artificial Massively Multilingual Speech (MMS) que reconhece a linguagem falada em 4.000 idiomas e a reproduz, ou seja, converte texto em fala em mais de 1.100 idiomas.

Fonte da imagem: Gerd Altmann / pixabay.com

Os modelos de reconhecimento de fala e conversão de texto em fala geralmente envolvem treinamento para vários milhares de horas de gravações de áudio com transcrição e marcação de texto. Mas a tarefa se torna muito mais complicada para idiomas que não são usados ​​no mundo industrial – para eles, os dados de origem no formato tradicional simplesmente não existem, disse Meta*. Assim, a empresa adotou uma abordagem criativa e voltou-se para textos religiosos – a Bíblia e outros livros fundamentais foram traduzidos para um grande número de idiomas e há muitas gravações de áudio disponíveis publicamente nas quais esses textos são lidos. O treinamento do modelo foi dificultado pelo fato de as gravações de áudio não terem marcação textual precisa, mas como resultado, o número de idiomas suportados ultrapassou 4000.

Os autores do projeto enfatizaram que, apesar do conteúdo dos materiais de treinamento, o modelo treinado nesses textos não tinha um viés para uma cosmovisão religiosa; não houve viés de gênero, embora a maioria das gravações de áudio amostradas tenha sido lida por homens. O problema com a falta de marcação de texto em gravações de áudio foi superado pelo wav2vec 2.0, outro modelo Meta* AI projetado para “aprender representação de fala com automonitoramento”. A empresa alertou que o resultado pode não ser perfeito – existe o risco de que o modelo de fala para texto possa interpretar mal algumas palavras e frases e, em alguns contextos, esses erros às vezes são ofensivos. Mas, na prática, dizem os desenvolvedores, o MMS mostra metade dos erros de suas contrapartes existentes, incluindo o modelo OpenAI Whisper,

Na prática, o projeto dará aos falantes de idiomas raros acesso a informações e produtos tecnológicos – a maioria dos serviços dos gigantes da tecnologia moderna é limitada a um conjunto de 100 idiomas, e esse estado de coisas é considerado inaceitável no Meta*.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Postagens recentes

Cientistas criaram um híbrido estável de supercondutor e spin qubit melhorando o spin qubit de Andreev

Ainda não existe uma plataforma ideal para computadores quânticos. Existem bons candidatos para o papel…

5 minutos atrás

A Rostelecom teve um grande fracasso – muitos sites estrangeiros estão indisponíveis

Na manhã do dia 23 de maio, os clientes do provedor Rostelecom começaram a reclamar…

1 hora atrás