A Meta* lançou um modelo de inteligência artificial Massively Multilingual Speech (MMS) que reconhece a linguagem falada em 4.000 idiomas e a reproduz, ou seja, converte texto em fala em mais de 1.100 idiomas.

Fonte da imagem: Gerd Altmann / pixabay.com

Os modelos de reconhecimento de fala e conversão de texto em fala geralmente envolvem treinamento para vários milhares de horas de gravações de áudio com transcrição e marcação de texto. Mas a tarefa se torna muito mais complicada para idiomas que não são usados ​​no mundo industrial – para eles, os dados de origem no formato tradicional simplesmente não existem, disse Meta*. Assim, a empresa adotou uma abordagem criativa e voltou-se para textos religiosos – a Bíblia e outros livros fundamentais foram traduzidos para um grande número de idiomas e há muitas gravações de áudio disponíveis publicamente nas quais esses textos são lidos. O treinamento do modelo foi dificultado pelo fato de as gravações de áudio não terem marcação textual precisa, mas como resultado, o número de idiomas suportados ultrapassou 4000.

Os autores do projeto enfatizaram que, apesar do conteúdo dos materiais de treinamento, o modelo treinado nesses textos não tinha um viés para uma cosmovisão religiosa; não houve viés de gênero, embora a maioria das gravações de áudio amostradas tenha sido lida por homens. O problema com a falta de marcação de texto em gravações de áudio foi superado pelo wav2vec 2.0, outro modelo Meta* AI projetado para “aprender representação de fala com automonitoramento”. A empresa alertou que o resultado pode não ser perfeito – existe o risco de que o modelo de fala para texto possa interpretar mal algumas palavras e frases e, em alguns contextos, esses erros às vezes são ofensivos. Mas, na prática, dizem os desenvolvedores, o MMS mostra metade dos erros de suas contrapartes existentes, incluindo o modelo OpenAI Whisper,

Na prática, o projeto dará aos falantes de idiomas raros acesso a informações e produtos tecnológicos – a maioria dos serviços dos gigantes da tecnologia moderna é limitada a um conjunto de 100 idiomas, e esse estado de coisas é considerado inaceitável no Meta*.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Ver comentários

  • Creio que esse suporte do Meta poderá ajudar em algumas situações porém aprender uma
    nova língua sempre vai ser melhor do que depender de máquinas. De qualquer maneira excelente artigo.

Postagens recentes

Fotos das placas de vídeo Radeon RX 9070 da Asus TUF Gaming e Prime foram publicadas

Em antecipação ao anúncio das novas placas de vídeo AMD, imagens ao vivo dos aceleradores…

6 horas atrás

A Apple, junto com o TikTok, removeu uma dúzia de outros aplicativos ByteDance da App Store

De acordo com a decisão da Suprema Corte dos EUA, o serviço de vídeos curtos…

6 horas atrás

TikTok parou de funcionar prematuramente nos EUA

O serviço de vídeos curtos TikTok parou de funcionar nos Estados Unidos. Isto aconteceu após…

7 horas atrás