A Meta* lançou um modelo de inteligência artificial Massively Multilingual Speech (MMS) que reconhece a linguagem falada em 4.000 idiomas e a reproduz, ou seja, converte texto em fala em mais de 1.100 idiomas.

Fonte da imagem: Gerd Altmann / pixabay.com

Os modelos de reconhecimento de fala e conversão de texto em fala geralmente envolvem treinamento para vários milhares de horas de gravações de áudio com transcrição e marcação de texto. Mas a tarefa se torna muito mais complicada para idiomas que não são usados ​​no mundo industrial – para eles, os dados de origem no formato tradicional simplesmente não existem, disse Meta*. Assim, a empresa adotou uma abordagem criativa e voltou-se para textos religiosos – a Bíblia e outros livros fundamentais foram traduzidos para um grande número de idiomas e há muitas gravações de áudio disponíveis publicamente nas quais esses textos são lidos. O treinamento do modelo foi dificultado pelo fato de as gravações de áudio não terem marcação textual precisa, mas como resultado, o número de idiomas suportados ultrapassou 4000.

Os autores do projeto enfatizaram que, apesar do conteúdo dos materiais de treinamento, o modelo treinado nesses textos não tinha um viés para uma cosmovisão religiosa; não houve viés de gênero, embora a maioria das gravações de áudio amostradas tenha sido lida por homens. O problema com a falta de marcação de texto em gravações de áudio foi superado pelo wav2vec 2.0, outro modelo Meta* AI projetado para “aprender representação de fala com automonitoramento”. A empresa alertou que o resultado pode não ser perfeito – existe o risco de que o modelo de fala para texto possa interpretar mal algumas palavras e frases e, em alguns contextos, esses erros às vezes são ofensivos. Mas, na prática, dizem os desenvolvedores, o MMS mostra metade dos erros de suas contrapartes existentes, incluindo o modelo OpenAI Whisper,

Na prática, o projeto dará aos falantes de idiomas raros acesso a informações e produtos tecnológicos – a maioria dos serviços dos gigantes da tecnologia moderna é limitada a um conjunto de 100 idiomas, e esse estado de coisas é considerado inaceitável no Meta*.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Ver comentários

  • Creio que esse suporte do Meta poderá ajudar em algumas situações porém aprender uma
    nova língua sempre vai ser melhor do que depender de máquinas. De qualquer maneira excelente artigo.

Postagens recentes

Analistas: As vendas do ambicioso filme de ação Saros, dos criadores de Returnal, não impressionarão a Sony.

Lançado há duas semanas, o jogo de ação e ficção científica Saros foi o primeiro…

31 minutos atrás

Os lucros da Alibaba despencaram 84%, mas o CEO afirmou que o retorno sobre o investimento em IA é “absolutamente claro”.

A gigante chinesa de tecnologia Alibaba reportou lucro ajustado antes de juros, impostos e amortização…

47 minutos atrás

A receita da Nebius, empresa de Arkady Volozh, disparou 684% graças ao boom da inteligência artificial.

A Nebius Group, empresa de computação em nuvem com inteligência artificial fundada por Arkady Volozh,…

1 hora atrás

Hackers atacaram a loja online da Škoda, potencialmente vazando dados de clientes.

A montadora Škoda relatou um ataque cibernético à sua loja online e reconheceu que os…

2 horas atrás

O Linux está sob ataque novamente: foi exposta uma vulnerabilidade que transforma qualquer usuário em administrador.

Um especialista em cibersegurança revelou detalhes da versátil vulnerabilidade Fragnesia, uma ferramenta local de escalonamento…

2 horas atrás