A OpenAI apresentou os resultados dos testes preliminares do modelo Voice Engine AI, que, com base em uma amostra de 15 segundos, pode expressar de forma realista o texto inserido, tentando transmitir com precisão as características de voz e fala do locutor.

Fonte da imagem: Unsplash, Igor Omilaev

Os primeiros desenvolvimentos do Voice Engine surgiram no final de 2022 e foram utilizados na API de conversão de texto em fala, bem como em conjunto com ChatGPT Voice e Read Aloud. A OpenAI está ciente das consequências do possível uso indevido da tecnologia de voz sintetizada, por isso espera obter feedback do público sobre possíveis perigos e áreas de aplicação. Quanto a este último, desde o ano passado a OpenAI se ofereceu para testar o Voice Engine com um pequeno grupo de parceiros – e recebeu exemplos de uso:

  • Ajudando leitores e crianças com dificuldades por meio de vozes naturais, emocionais e diversas. Por exemplo, a empresa de tecnologia educacional Age of Learning utiliza o Voice Engine para dar voz ao conteúdo e, junto com o GPT-4, fornecer respostas personalizadas aos alunos em tempo real.
  • A tradução de conteúdos como vídeos e podcasts permitirá que autores e empresas expandam seu público em todo o mundo, comunicando informações em suas próprias vozes e nas vozes dos funcionários. Um dos pioneiros é o HeyGen, uma plataforma de narrativa visual de IA para clientes corporativos, projetada para criar avatares humanóides para fins que vão desde marketing de produtos até discursos de vendas. O Voice Engine preserva o sotaque nativo do falante, portanto, quando um falante de francês falar um texto em inglês, um sotaque francês será ouvido.
  • Apoio a pessoas com problemas de fala, aplicações terapêuticas, suplementos educativos. Livox é um aplicativo de IA para dispositivos de comunicação alternativos e aumentados que ajuda pessoas com problemas de comunicação. Usando o Voice Engine, o Livox oferecerá vozes exclusivas e não robóticas para silenciar as pessoas. O usuário poderá escolher a voz que mais lhe convier, que falará em diferentes idiomas.
  • Ajuda na restauração da voz em casos de distúrbios súbitos e degenerativos da fala. O Norman Prince Neuroscience Institute (NPNI) está conduzindo um programa para ajudar pessoas com câncer ou distúrbios neurológicos da fala. Usando a capacidade do Voice Engine de reproduzir a fala em amostras de 15 segundos, os Drs. Fatima Mirza, Rohaid Ali e Konstantina Svokos usaram o áudio de um vídeo para um projeto escolar e restauraram a voz de um jovem paciente com problemas de fala devido a um tumor cerebral vascular.

Os parceiros da OpenAI concordaram com as regras de uso da tecnologia, que proíbem seu uso para se passar por outra pessoa, o que não se pode dizer de possíveis invasores que utilizam cada vez mais tecnologias de redes neurais para fins criminosos.

avalanche

Postagens recentes

A Samsung foi a culpada pelo atraso do iPad Pro com telas OLED

Problemas com o fornecimento de painéis OLED foram um fator chave no atraso no lançamento…

5 horas atrás

Final Fantasy VII Rebirth – por que você está fazendo isso? Análise

29 de fevereiro de 2024 Não PlayStation 5 A decisão da Square Enix de dividir…

6 horas atrás

Sem microtransações em jogos únicos, Sirius promissor e surpresas de The Witcher 4: revelações dos executivos da CD Projekt

O CFO da CD Projekt, Piotr Nielubowicz, e a vice-presidente de relações com investidores Karolina…

7 horas atrás

37,6 mil gigabytes por segundo – um novo recorde de velocidade de transferência de dados em um cabo de fibra óptica normal

Pesquisadores da Aston University alcançaram uma velocidade recorde de transferência de dados de 301 Tbps…

9 horas atrás

Xiaomi coletou 50 mil pedidos do carro elétrico SU7 em apenas 27 minutos de vendas

Ontem começaram as vendas do SU7, primeiro carro elétrico da Xiaomi, na China. Os preços…

9 horas atrás