Cloudflare acusa perplexidade na coleta massiva de dados de IA para contornar quaisquer proibições

A Cloudflare acusou a startup Perplexity de extrair dados em massa de sites que proíbem explicitamente a coleta de dados. De acordo com uma pesquisa da Cloudflare publicada em 4 de agosto, os bots da Perplexity ignoraram as restrições técnicas definidas no arquivo robots.txt e continuaram a extrair e copiar conteúdo de dezenas de milhares de domínios, gerando milhões de solicitações diariamente.

Fonte da imagem: Stefan Stefancík/Unsplash

De acordo com a Cloudflare, a Perplexity estava alterando o campo User-Agent de seus bots e usando diferentes sistemas autônomos (ASNs) para evitar bloqueios, inclusive imitando o Google Chrome no macOS. Segundo o TechCrunch, a Cloudflare descobriu essa atividade após clientes reclamarem que já haviam implementado regras robots.txt e bloqueios adicionais para bots Perplexity conhecidos. Como resultado, a Cloudflare usou uma combinação de aprendizado de máquina e sinais de rede para remover os bots Perplexity de sua lista oficial de rastreadores confiáveis e implementar mecanismos adicionais para bloqueá-los.

O porta-voz da Perplexity, Jesse Dwyer, classificou a publicação da Cloudflare como uma ação de marketing, afirmando que as capturas de tela fornecidas não comprovavam o acesso ao conteúdo. Em um e-mail de acompanhamento, ele acrescentou que o bot mencionado na reportagem não pertencia à empresa. No entanto, a Cloudflare insiste que seus dados são precisos.

A Cloudflare já criticou a coleta agressiva de dados por empresas de IA, com o CEO da Cloudflare, Matthew Prince, argumentando repetidamente que a coleta em massa de dados está minando a economia da internet, especialmente para os veículos de notícias. Em resposta, a empresa lançou uma ferramenta gratuita de proteção contra cópia de conteúdo para treinar modelos. Também na esteira disso, a Cloudflare, conforme prometido em setembro de 2024, lançou uma plataforma de negociação que permite que proprietários de sites cobrem dos desenvolvedores de IA pelo acesso aos dados.

Esta não é a primeira vez que a Perplexity é acusada de plagiar seu trabalho. No ano passado, veículos como a Wired acusaram a startup de reproduzir seu material sem a devida atribuição. E no Disrupt 2024, o CEO da Perplexity, Aravind Srinivas, teve dificuldade para definir plágio quando questionado sobre o assunto por Devin Coldewey, do TechCrunch.

admin

Postagens recentes

O Japão está enfrentando uma escassez de placas de vídeo, com o problema afetando atualmente os modelos GeForce RTX 5060 Ti de 16 GB e superiores.

Segundo a ITmedia, surgiu uma escassez de aceleradores gráficos de alta gama no mercado japonês.…

4 horas atrás

O Instagram vazou dados de 17,5 milhões de contas, e esses dados já estão sendo usados ​​por hackers.

A empresa de software de cibersegurança Malwarebytes anunciou uma violação de dados confirmada que afetou…

5 horas atrás

A IBM declarou 2026 como o ano em que a computação quântica irá surgir.

Na CES 2026, a IBM lotou o auditório com uma apresentação fascinante sobre o iminente…

6 horas atrás

O setor de tecnologia perderá mais de 240.000 empregos até 2025.

Segundo a RationalFX, 244.851 pessoas foram demitidas no setor de tecnologia global no ano passado.…

6 horas atrás

A China domina a conversão de placas gráficas GeForce RTX para uso em fazendas de IA.

As placas gráficas Nvidia GeForce para consumidores, com ventoinhas tipo turbina redesenhadas para cargas de…

7 horas atrás

A Asus aumentou a ROM UEFI nas placas-mãe AM5 para 64 MB — e agora inclui até mesmo um driver de Wi-Fi.

A Asus confirmou que suas novas placas-mãe da série AMD 800 para a plataforma AM5…

7 horas atrás