A Meta* lançou um modelo de inteligência artificial Massively Multilingual Speech (MMS) que reconhece a linguagem falada em 4.000 idiomas e a reproduz, ou seja, converte texto em fala em mais de 1.100 idiomas.

Fonte da imagem: Gerd Altmann / pixabay.com

Os modelos de reconhecimento de fala e conversão de texto em fala geralmente envolvem treinamento para vários milhares de horas de gravações de áudio com transcrição e marcação de texto. Mas a tarefa se torna muito mais complicada para idiomas que não são usados ​​no mundo industrial – para eles, os dados de origem no formato tradicional simplesmente não existem, disse Meta*. Assim, a empresa adotou uma abordagem criativa e voltou-se para textos religiosos – a Bíblia e outros livros fundamentais foram traduzidos para um grande número de idiomas e há muitas gravações de áudio disponíveis publicamente nas quais esses textos são lidos. O treinamento do modelo foi dificultado pelo fato de as gravações de áudio não terem marcação textual precisa, mas como resultado, o número de idiomas suportados ultrapassou 4000.

Os autores do projeto enfatizaram que, apesar do conteúdo dos materiais de treinamento, o modelo treinado nesses textos não tinha um viés para uma cosmovisão religiosa; não houve viés de gênero, embora a maioria das gravações de áudio amostradas tenha sido lida por homens. O problema com a falta de marcação de texto em gravações de áudio foi superado pelo wav2vec 2.0, outro modelo Meta* AI projetado para “aprender representação de fala com automonitoramento”. A empresa alertou que o resultado pode não ser perfeito – existe o risco de que o modelo de fala para texto possa interpretar mal algumas palavras e frases e, em alguns contextos, esses erros às vezes são ofensivos. Mas, na prática, dizem os desenvolvedores, o MMS mostra metade dos erros de suas contrapartes existentes, incluindo o modelo OpenAI Whisper,

Na prática, o projeto dará aos falantes de idiomas raros acesso a informações e produtos tecnológicos – a maioria dos serviços dos gigantes da tecnologia moderna é limitada a um conjunto de 100 idiomas, e esse estado de coisas é considerado inaceitável no Meta*.

* Está incluída na lista de associações públicas e organizações religiosas em relação às quais o tribunal proferiu decisão final de liquidação ou proibição de atividades com base na Lei Federal nº 114-FZ de 25 de julho de 2002 “No combate a extremistas atividade”.

avalanche

Ver comentários

  • Creio que esse suporte do Meta poderá ajudar em algumas situações porém aprender uma
    nova língua sempre vai ser melhor do que depender de máquinas. De qualquer maneira excelente artigo.

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

1 dia atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

1 dia atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

1 dia atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

1 dia atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

1 dia atrás