O NCC Group, uma empresa de segurança cibernética, desenvolveu um método baseado em IA para recriar a voz de qualquer pessoa em tempo real. O sistema é construído usando software de código aberto e hardware pronto para uso.
Fonte da imagem: Vitaly Gariev / unsplash.com
Após o treinamento, a ferramenta de criação de deepfakes de voz em tempo real é ativada com apenas um clique. Controlada por uma interface web, ela permite que um possível invasor se faça passar por qualquer pessoa. Mesmo que a qualidade do sinal de entrada seja ruim, a voz de saída ainda soa convincente e a latência é insignificante. Isso significa que esta solução pode ser usada até mesmo com microfones embutidos em laptops e smartphones.
A operação em tempo real é uma vantagem significativa. As tecnologias existentes de falsificação de voz geram um arquivo de áudio. Isso significa que um invasor pode pré-gravar suas falas, mas uma vítima em potencial descobrirá facilmente o esquema se a conversa se desviar do cenário esperado. E se um golpista tentar gerar um deepfake na hora, o atraso na conversa o denunciará. Os engenheiros do NCC Group testaram sua tecnologia em seus próprios clientes — com a permissão deles, é claro — e nunca notaram um truque. A parte de software da solução utiliza ferramentas de código aberto e, para um desempenho de hardware eficiente, placas gráficas potentes são recomendadas. Mesmo um laptop com uma das placas de vídeo menos potentes da atual linha Nvidia RTX A1000 produziu uma latência de apenas meio segundo.
Felizmente, deepfakes com vídeos ainda não funcionam em tempo real. Atualmente, as principais redes sociais, incluindo TikTok, YouTube e Instagram, estão vivenciando uma nova onda de deepfakes de vídeo, criados com duas ferramentas: o gerador de imagens Google Gemini Flash 2.5 (também conhecido como Nano Banana) e o gerador de vídeo de código aberto Alibaba WAN 2.2 Animate.Eles permitem que qualquer pessoa seja adicionada a um vídeo. Uma fraqueza dos deepfakes em vídeo continua sendo a falta de consistência entre imagem e áudio — as expressões faciais nem sempre correspondem à entonação, e se uma pessoa parece agitada, mas seu rosto permanece calmo, provavelmente é uma farsa. No entanto, novas soluções exigem medidas de segurança aprimoradas: os métodos de autenticação não devem mais depender de chamadas de voz e vídeo, alertam especialistas.
John Nitti deixou o cargo de chefe de publicidade da rede social X (antigo Twitter)…
A Taiwan Semiconductor Manufacturing Company (TSMC) tem reservas suficientes de metais de terras raras e…
A Boox anunciou o e-reader Palma 2 Pro, que tem tamanho semelhante ao de um…
Amanhã, 26 de outubro de 2025, às 9h, horário local, o Japão planeja lançar sua…
O recém-lançado MacBook Pro de 14 polegadas com processador Apple M5 oferece um ligeiro aumento…
Físicos do Instituto de Tecnologia de Massachusetts (MIT) desenvolveram um método intrigante baseado na física…