Até 2025, a qualidade dos deepfakes — mídias criadas usando inteligência artificial — havia melhorado significativamente. Os rostos, vozes e movimentos corporais gerados por IA para imitar pessoas reais superaram as expectativas de muitos especialistas; esses materiais estão sendo cada vez mais usados para enganar as pessoas, alerta o Gizmodo.

Fonte da imagem: Tom Kotov / unsplash.com
Em muitas situações do dia a dia, seja em videochamadas de baixa resolução ou em conteúdo de redes sociais, a qualidade dos deepfakes gerados por IA já é alta o suficiente para enganar pessoas comuns que não são especialistas. O aumento nos deepfakes não se limita à qualidade: em 2023, havia 500 mil materiais desse tipo, e a previsão é de que esse número chegue a cerca de 8 milhões em 2025, segundo a DeepStrike, com uma taxa de crescimento de aproximadamente 900% ao ano.
Diversos avanços tecnológicos contribuíram para esse aumento expressivo. Primeiramente, os materiais gerados por IA são caracterizados por consistência temporal: as pessoas em cena se movem de forma realista, são facilmente reconhecíveis e o conteúdo do vídeo permanece coerente em cada frame. Os modelos separam as informações relacionadas à representação da identidade de uma pessoa das informações sobre o movimento: o mesmo movimento pode ser associado a diferentes identidades, e a mesma identidade a múltiplos tipos de movimento. As imagens faciais não tremem, distorcem ou exibem as deformações que antes indicavam claramente a presença de deepfakes.
Em segundo lugar, a qualidade da clonagem de voz já ultrapassou o limite convencional de indistinguibilidade. Alguns segundos são suficientes para criar uma imitação convincente de uma voz — o clone terá entonação, ritmo, sotaque, emoção, pausas e até mesmo ruído de respiração naturais. E isso proporciona uma enorme oportunidade para fraudes em larga escala. Os indícios subjetivos que antes denunciavam vozes sintéticas praticamente desapareceram.
Em terceiro lugar, a barreira técnica para trabalhar com geradores de conteúdo foi reduzida a praticamente zero — com o OpenAI Sora 2 e o Google Veo 3, bem como modelos de algumas startups, qualquer pessoa pode fazer isso.Formule uma ideia, crie um roteiro detalhado usando o OpenAI ChatGPT ou o Google Gemini e gere conteúdo de alta qualidade em minutos. Todo o processo pode ser automatizado usando agentes de IA. Em última análise, a capacidade de criar deepfakes coerentes com narrativas em larga escala já foi democratizada.

Fonte da imagem: Mark Farías / unsplash.com
Detectar deepfakes indistinguíveis de pessoas reais nas redes sociais está se tornando cada vez mais difícil, especialmente porque a atenção do usuário nessas plataformas já está fragmentada e o conteúdo se espalha mais rápido do que pode ser verificado. Deepfakes são usados para desinformação, assédio e fraude financeira, e as pessoas nem têm tempo de perceber o que está acontecendo.
A trajetória para o próximo ano parece clara: os deepfakes estão caminhando para a geração de conteúdo em tempo real. Os vídeos imitam com precisão as nuances da aparência de uma pessoa e estão se mostrando capazes de burlar os sistemas de detecção. A fronteira está mudando do realismo visual estático para a consistência no tempo e no comportamento — o conteúdo aparecerá em tempo real e os clipes pré-renderizados não serão mais suficientes. O resultado irá além do simples reconhecimento humano — os personagens nos vídeos se comportarão como suas contrapartes da vida real. Os participantes de videochamadas poderão ser sintetizados em tempo real — seus rostos, vozes e trejeitos se adaptarão instantaneamente às solicitações e, em vez de vídeos gravados, os golpistas mostrarão às suas vítimas esses avatares de IA.
A percepção subjetiva não será mais suficiente para proteger as pessoas contra esses deepfakes; medidas técnicas de proteção serão necessárias, como assinaturas criptográficas de materiais autênticos e rotulagem de ferramentas de edição de IA. Uma análise minuciosa de uma imagem em nível de pixel pode não ser mais suficiente.