A Meta* lançou um modelo de inteligência artificial Massively Multilingual Speech (MMS) que reconhece a linguagem falada em 4.000 idiomas e a reproduz, ou seja, converte texto em fala em mais de 1.100 idiomas.

Fonte da imagem: Gerd Altmann / pixabay.com

Os modelos de reconhecimento de fala e conversão de texto em fala geralmente envolvem treinamento para vários milhares de horas de gravações de áudio com transcrição e marcação de texto. Mas a tarefa se torna muito mais complicada para idiomas que não são usados ​​no mundo industrial – para eles, os dados de origem no formato tradicional simplesmente não existem, disse Meta*. Assim, a empresa adotou uma abordagem criativa e voltou-se para textos religiosos – a Bíblia e outros livros fundamentais foram traduzidos para um grande número de idiomas e há muitas gravações de áudio disponíveis publicamente nas quais esses textos são lidos. O treinamento do modelo foi dificultado pelo fato de as gravações de áudio não terem marcação textual precisa, mas como resultado, o número de idiomas suportados ultrapassou 4000.

Os autores do projeto enfatizaram que, apesar do conteúdo dos materiais de treinamento, o modelo treinado nesses textos não tinha um viés para uma cosmovisão religiosa; não houve viés de gênero, embora a maioria das gravações de áudio amostradas tenha sido lida por homens. O problema com a falta de marcação de texto em gravações de áudio foi superado pelo wav2vec 2.0, outro modelo Meta* AI projetado para “aprender representação de fala com automonitoramento”. A empresa alertou que o resultado pode não ser perfeito – existe o risco de que o modelo de fala para texto possa interpretar mal algumas palavras e frases e, em alguns contextos, esses erros às vezes são ofensivos. Mas, na prática, dizem os desenvolvedores, o MMS mostra metade dos erros de suas contrapartes existentes, incluindo o modelo OpenAI Whisper,

Na prática, o projeto dará aos falantes de idiomas raros acesso a informações e produtos tecnológicos – a maioria dos serviços dos gigantes da tecnologia moderna é limitada a um conjunto de 100 idiomas, e esse estado de coisas é considerado inaceitável no Meta*.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Ver comentários

  • Creio que esse suporte do Meta poderá ajudar em algumas situações porém aprender uma
    nova língua sempre vai ser melhor do que depender de máquinas. De qualquer maneira excelente artigo.

Postagens recentes

A BYD apresentou o carro elétrico Denza Z9 GT com uma autonomia recorde de 1.036 km.

Uma atualização recente equipou o cupê elétrico Denza Z9 GT com a mais recente bateria…

2 horas atrás

As autoridades americanas irão proibir a compra de determinados produtos semicondutores chineses para fins governamentais.

As tentativas periódicas de obter concessões para as exportações de semicondutores dos EUA para a…

3 horas atrás

O CEO do Google poderá faturar US$ 692 milhões nos próximos três anos se o serviço de táxi autônomo da Waymo decolar.

Tradicionalmente, os executivos de empresas de capital aberto recebem remuneração não apenas em dinheiro, mas…

3 horas atrás

A Anthropic lançou uma plataforma para vender aplicativos construídos com base em seus modelos, seguindo o modelo da Amazon.

A Anthropic lançou o Anthropic Marketplace, uma plataforma que permitirá que clientes corporativos comprem aplicativos…

4 horas atrás

A Samsung planeja oferecer uma ferramenta de codificação Vibe para usuários de smartphones Galaxy.

Na era do rápido desenvolvimento da inteligência artificial generativa, o desenvolvimento de software exige apenas…

5 horas atrás