A OpenAI apresentou os resultados dos testes preliminares do modelo Voice Engine AI, que, com base em uma amostra de 15 segundos, pode expressar de forma realista o texto inserido, tentando transmitir com precisão as características de voz e fala do locutor.
Os primeiros desenvolvimentos do Voice Engine surgiram no final de 2022 e foram utilizados na API de conversão de texto em fala, bem como em conjunto com ChatGPT Voice e Read Aloud. A OpenAI está ciente das consequências do possível uso indevido da tecnologia de voz sintetizada, por isso espera obter feedback do público sobre possíveis perigos e áreas de aplicação. Quanto a este último, desde o ano passado a OpenAI se ofereceu para testar o Voice Engine com um pequeno grupo de parceiros – e recebeu exemplos de uso:
- Ajudando leitores e crianças com dificuldades por meio de vozes naturais, emocionais e diversas. Por exemplo, a empresa de tecnologia educacional Age of Learning utiliza o Voice Engine para dar voz ao conteúdo e, junto com o GPT-4, fornecer respostas personalizadas aos alunos em tempo real.
- A tradução de conteúdos como vídeos e podcasts permitirá que autores e empresas expandam seu público em todo o mundo, comunicando informações em suas próprias vozes e nas vozes dos funcionários. Um dos pioneiros é o HeyGen, uma plataforma de narrativa visual de IA para clientes corporativos, projetada para criar avatares humanóides para fins que vão desde marketing de produtos até discursos de vendas. O Voice Engine preserva o sotaque nativo do falante, portanto, quando um falante de francês falar um texto em inglês, um sotaque francês será ouvido.
- Apoio a pessoas com problemas de fala, aplicações terapêuticas, suplementos educativos. Livox é um aplicativo de IA para dispositivos de comunicação alternativos e aumentados que ajuda pessoas com problemas de comunicação. Usando o Voice Engine, o Livox oferecerá vozes exclusivas e não robóticas para silenciar as pessoas. O usuário poderá escolher a voz que mais lhe convier, que falará em diferentes idiomas.
- Ajuda na restauração da voz em casos de distúrbios súbitos e degenerativos da fala. O Norman Prince Neuroscience Institute (NPNI) está conduzindo um programa para ajudar pessoas com câncer ou distúrbios neurológicos da fala. Usando a capacidade do Voice Engine de reproduzir a fala em amostras de 15 segundos, os Drs. Fatima Mirza, Rohaid Ali e Konstantina Svokos usaram o áudio de um vídeo para um projeto escolar e restauraram a voz de um jovem paciente com problemas de fala devido a um tumor cerebral vascular.
Os parceiros da OpenAI concordaram com as regras de uso da tecnologia, que proíbem seu uso para se passar por outra pessoa, o que não se pode dizer de possíveis invasores que utilizam cada vez mais tecnologias de redes neurais para fins criminosos.