A colunista do Wall Street Journal Joanna Stern (Joanna Stern) tentou descobrir o quão natural pode ser um avatar digital de uma pessoa, criado usando algoritmos avançados baseados em IA generativa. O resultado do experimento acabou sendo assustador, pois Joanna conseguiu seu próprio clone digital, capaz de enganar seus parentes e enganar o sistema de identificação por voz do banco.

Fonte da imagem: The Wall Street Journal

Para criar um avatar virtual, Joanna utilizou a ferramenta Synthesia, que é posicionada pelos desenvolvedores como um serviço de criação de avatares de vídeo a partir de gravações de vídeo e áudio de pessoas reais. Depois de criar um avatar, o usuário pode inserir qualquer texto que o clone virtual repita obedientemente. O material inicial para o treinamento do algoritmo foram 30 minutos de vídeo e cerca de duas horas de gravações de áudio da voz de Joanna.

A Startup Synthesia cobra US$ 1.000 por ano para criar e manter um avatar virtual e cobra dos usuários uma taxa mensal adicional. Algumas semanas depois, o clone digital do jornalista estava pronto, após o que começaram seus testes. Joanna gerou texto para um vídeo iOS TikTok usando ChatGPT e carregou-o no Synthesia, após o qual o avatar criou o vídeo finalizado. Ela teve a impressão de estar se olhando no espelho e vendo seu próprio reflexo.

No entanto, nesta fase, a tecnologia não é totalmente perfeita. Se o avatar parece convincente o suficiente ao reproduzir frases curtas, frases mais longas deixam claro que não são faladas por uma pessoa. Apesar de nem todos os usuários estarem atentos ao TikTok, alguns assinantes notaram que o vídeo criado com um avatar virtual não parece natural.

Um problema semelhante foi encontrado ao tentar usar um avatar digital durante videochamadas no Google Meet. Além da reprodução de baixa qualidade de frases longas, o avatar mantém uma postura ideal o tempo todo e praticamente não se move. Apesar disso, é claro que o avatar de vídeo ficará mais avançado em um futuro próximo, pois já existem várias versões beta no desenvolvimento do Synthesia que podem acenar com a cabeça, levantar e abaixar as sobrancelhas e realizar alguns outros movimentos humanos.

Fonte da imagem: Joanna Stern / The Wall Street Journal

Depois de testar os recursos do avatar de vídeo, Joanna decidiu experimentar um clone de voz criado usando o algoritmo de IA geradora da ElevenLabs. Demorou cerca de 90 minutos de gravações de voz para serem carregadas no serviço, e em menos de dois minutos o clone de voz estava pronto. O avatar de áudio pode reproduzir qualquer texto na voz do usuário. Para criar um clone de voz, a ElevenLabs cobra US$ 5 por mês.

Comparado ao avatar de vídeo da Synthesia, o clone de áudio se parece mais com uma pessoa real. Acrescenta entonação ao discurso, e a reprodução do próprio texto ocorre de forma mais suave. Primeiro, Joanna ligou para a irmã e usou um clone de voz para se comunicar com ela. Nota-se que a irmã não percebeu de imediato a pegadinha, mas depois de um tempo percebeu que durante a conversa o clone de voz não parou para respirar. Em seguida, houve uma ligação para o pai solicitando a lembrança do CPF. Ele conseguiu ver o problema, porque a voz de Joanna parecia estar em uma fita. Apesar disso, os familiares do jornalista não perceberam de imediato que não era uma pessoa viva que se comunicava com eles, embora não tenham conseguido enganá-los por muito tempo.

Outra ligação foi feita para o suporte do Chase Bank. Anteriormente, o algoritmo fazia várias perguntas que deveriam ser respondidas no processo de identificação de voz do banco. Após uma breve conversa, Joanna foi ligada a um representante do banco, pois o sistema de identificação por voz não detectou nenhum problema. Um porta-voz do Chase disse posteriormente que o banco usa identificação por voz junto com outras ferramentas de verificação de identidade do cliente, observando que a identificação por voz permite que você se comunique com um funcionário de suporte, mas não pode ser usada para realizar uma transação ou realizar outra operação.

A voz gerada pelo serviço ElevenLabs acabou sendo o mais semelhante possível à voz de Joanna. Ele levou em consideração a entonação e outras características da fala. É curioso que, para criar tal clone de voz, basta carregar várias gravações de áudio para o serviço e concordar com as regras da plataforma, que afirmam que o usuário se compromete a não usar o algoritmo para fins fraudulentos. Isso significa que qualquer pessoa pode facilmente gerar a voz de um de seus amigos ou celebridades.

Um representante da ElevenLabs disse que a empresa permite apenas que titulares de contas pagas clonem suas vozes. Em caso de violação da política da plataforma, a conta do usuário será bloqueada. Além disso, os desenvolvedores planejam lançar um serviço que permitirá fazer upload de qualquer áudio para verificar se o algoritmo ElevenLabs foi usado em sua criação. Observa-se que os desenvolvedores podem identificar todo o conteúdo gerado pelo usuário para filtrá-lo ou aplicar outras medidas aos infratores, incluindo a cooperação com as agências de aplicação da lei.

Joanna observou que cada um dos algoritmos que ela usa ainda não é capaz de fazer uma cópia indistinguível do original. O ChatGPT gerou texto sem depender do conhecimento e da experiência de um jornalista. O serviço Synthesia criou um avatar que, embora pareça uma pessoa, não é capaz de transmitir todas as características do usuário. Finalmente, o sistema ElevenLabs gera fala muito semelhante, mas também não é perfeito. No futuro, as tecnologias de IA continuarão a se desenvolver e, provavelmente, no futuro será apenas mais difícil distinguir um avatar virtual de uma pessoa real no processo de comunicação.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *