A OpenAI apresentou os resultados dos testes preliminares do modelo Voice Engine AI, que, com base em uma amostra de 15 segundos, pode expressar de forma realista o texto inserido, tentando transmitir com precisão as características de voz e fala do locutor.

Fonte da imagem: Unsplash, Igor Omilaev

Os primeiros desenvolvimentos do Voice Engine surgiram no final de 2022 e foram utilizados na API de conversão de texto em fala, bem como em conjunto com ChatGPT Voice e Read Aloud. A OpenAI está ciente das consequências do possível uso indevido da tecnologia de voz sintetizada, por isso espera obter feedback do público sobre possíveis perigos e áreas de aplicação. Quanto a este último, desde o ano passado a OpenAI se ofereceu para testar o Voice Engine com um pequeno grupo de parceiros – e recebeu exemplos de uso:

  • Ajudando leitores e crianças com dificuldades por meio de vozes naturais, emocionais e diversas. Por exemplo, a empresa de tecnologia educacional Age of Learning utiliza o Voice Engine para dar voz ao conteúdo e, junto com o GPT-4, fornecer respostas personalizadas aos alunos em tempo real.
  • A tradução de conteúdos como vídeos e podcasts permitirá que autores e empresas expandam seu público em todo o mundo, comunicando informações em suas próprias vozes e nas vozes dos funcionários. Um dos pioneiros é o HeyGen, uma plataforma de narrativa visual de IA para clientes corporativos, projetada para criar avatares humanóides para fins que vão desde marketing de produtos até discursos de vendas. O Voice Engine preserva o sotaque nativo do falante, portanto, quando um falante de francês falar um texto em inglês, um sotaque francês será ouvido.
  • Apoio a pessoas com problemas de fala, aplicações terapêuticas, suplementos educativos. Livox é um aplicativo de IA para dispositivos de comunicação alternativos e aumentados que ajuda pessoas com problemas de comunicação. Usando o Voice Engine, o Livox oferecerá vozes exclusivas e não robóticas para silenciar as pessoas. O usuário poderá escolher a voz que mais lhe convier, que falará em diferentes idiomas.
  • Ajuda na restauração da voz em casos de distúrbios súbitos e degenerativos da fala. O Norman Prince Neuroscience Institute (NPNI) está conduzindo um programa para ajudar pessoas com câncer ou distúrbios neurológicos da fala. Usando a capacidade do Voice Engine de reproduzir a fala em amostras de 15 segundos, os Drs. Fatima Mirza, Rohaid Ali e Konstantina Svokos usaram o áudio de um vídeo para um projeto escolar e restauraram a voz de um jovem paciente com problemas de fala devido a um tumor cerebral vascular.

Os parceiros da OpenAI concordaram com as regras de uso da tecnologia, que proíbem seu uso para se passar por outra pessoa, o que não se pode dizer de possíveis invasores que utilizam cada vez mais tecnologias de redes neurais para fins criminosos.

avalanche

Postagens recentes

Os investidores estão prontos para comprar ações da SpaceX no valor de mais de US$ 250 bilhões, quatro vezes o valor da oferta.

Até recentemente, um aumento de duas vezes no número de pessoas dispostas a comprar ações…

2 horas atrás

A Microsoft corrigiu três vulnerabilidades zero-day perigosas e outras 200 falhas em seu software.

A Microsoft lançou sua atualização de junho na terça-feira de atualizações, corrigindo 200 vulnerabilidades, incluindo…

6 horas atrás

Inteligência artificial ajuda a atualizar drivers AMD Radeon que têm quase 20 anos.

Segundo o Phoronix, a versão mais recente do driver gráfico Gallium3D R600, incluída no Mesa…

8 horas atrás

A NASA apresentou a tripulação da missão lunar Artemis 3, mas ela não chegará à Lua.

A NASA anunciou os nomes dos astronautas que irão ao espaço na missão Artemis 3…

8 horas atrás

A NASA apresentou a tripulação da missão lunar Artemis 3, mas ela não chegará à Lua.

A NASA anunciou os nomes dos astronautas que irão ao espaço na missão Artemis 3…

8 horas atrás