A OpenAI apresentou os resultados dos testes preliminares do modelo Voice Engine AI, que, com base em uma amostra de 15 segundos, pode expressar de forma realista o texto inserido, tentando transmitir com precisão as características de voz e fala do locutor.

Fonte da imagem: Unsplash, Igor Omilaev

Os primeiros desenvolvimentos do Voice Engine surgiram no final de 2022 e foram utilizados na API de conversão de texto em fala, bem como em conjunto com ChatGPT Voice e Read Aloud. A OpenAI está ciente das consequências do possível uso indevido da tecnologia de voz sintetizada, por isso espera obter feedback do público sobre possíveis perigos e áreas de aplicação. Quanto a este último, desde o ano passado a OpenAI se ofereceu para testar o Voice Engine com um pequeno grupo de parceiros – e recebeu exemplos de uso:

  • Ajudando leitores e crianças com dificuldades por meio de vozes naturais, emocionais e diversas. Por exemplo, a empresa de tecnologia educacional Age of Learning utiliza o Voice Engine para dar voz ao conteúdo e, junto com o GPT-4, fornecer respostas personalizadas aos alunos em tempo real.
  • A tradução de conteúdos como vídeos e podcasts permitirá que autores e empresas expandam seu público em todo o mundo, comunicando informações em suas próprias vozes e nas vozes dos funcionários. Um dos pioneiros é o HeyGen, uma plataforma de narrativa visual de IA para clientes corporativos, projetada para criar avatares humanóides para fins que vão desde marketing de produtos até discursos de vendas. O Voice Engine preserva o sotaque nativo do falante, portanto, quando um falante de francês falar um texto em inglês, um sotaque francês será ouvido.
  • Apoio a pessoas com problemas de fala, aplicações terapêuticas, suplementos educativos. Livox é um aplicativo de IA para dispositivos de comunicação alternativos e aumentados que ajuda pessoas com problemas de comunicação. Usando o Voice Engine, o Livox oferecerá vozes exclusivas e não robóticas para silenciar as pessoas. O usuário poderá escolher a voz que mais lhe convier, que falará em diferentes idiomas.
  • Ajuda na restauração da voz em casos de distúrbios súbitos e degenerativos da fala. O Norman Prince Neuroscience Institute (NPNI) está conduzindo um programa para ajudar pessoas com câncer ou distúrbios neurológicos da fala. Usando a capacidade do Voice Engine de reproduzir a fala em amostras de 15 segundos, os Drs. Fatima Mirza, Rohaid Ali e Konstantina Svokos usaram o áudio de um vídeo para um projeto escolar e restauraram a voz de um jovem paciente com problemas de fala devido a um tumor cerebral vascular.

Os parceiros da OpenAI concordaram com as regras de uso da tecnologia, que proíbem seu uso para se passar por outra pessoa, o que não se pode dizer de possíveis invasores que utilizam cada vez mais tecnologias de redes neurais para fins criminosos.

avalanche

Postagens recentes

A Apple está criando um agente de IA local para o iPhone que poderá gerenciar aplicativos para o usuário.

A Apple está desenvolvendo um agente de IA que entende as interfaces dos aplicativos e…

37 minutos atrás

Roblox impulsionou um crescimento maior na indústria de jogos do que Steam, PlayStation e Fortnite juntos.

No ano passado, a popular plataforma de jogos Roblox, da empresa americana Roblox Corporation, foi…

47 minutos atrás

Os assinantes pagos do YouTube Music começaram a ver anúncios, e o Google prometeu investigar.

Assinantes do YouTube Premium relataram que seus alto-falantes Google Home começaram a reproduzir anúncios e…

2 horas atrás

Microsoft: Mudanças na liderança do Xbox não levarão a demissões ou fechamento de estúdios.

Anteriormente, foi anunciado que a divisão Xbox da Microsoft havia passado por mudanças na liderança.…

3 horas atrás

O WhatsApp aprenderá a ocultar mensagens em spoilers, assim como outro aplicativo de mensagens popular.

O WhatsApp está trabalhando em um novo recurso de formatação de texto que permitirá aos…

4 horas atrás