A Anthropic afirmou que sua atualização de 1º de julho para o Claude Code removeu um código oculto que havia sido adicionado meses antes e que tinha como objetivo identificar outros desenvolvedores de IA que tentassem roubar dados de seus modelos.

Fonte da imagem: anthropic.com
“Lançamos este experimento em março, e ele foi projetado para impedir o uso indevido de contas por revendedores não autorizados e proteger contra a extração de dados. Desde então, a empresa desenvolveu proteções mais eficazes e, na verdade, já tínhamos a intenção de removê-lo há algum tempo”, explicou Thariq Shihipar, engenheiro da Anthropic.
O experimento consistia em aplicar esteganografia — ocultar dados sensíveis à vista de todos — ao contexto do sistema Claude Code transmitido aos servidores da Anthropic. O código verificava a variável de URL base usada para rotear as solicitações de API para um gateway ou servidor proxy. Se a URL base fosse alterada, o código verificava o fuso horário do sistema e fazia uma comparação com uma lista de endereços de laboratórios chineses conhecidos e outras empresas de IA, revendedores de contas e domínios de gateway.
“O Claude Code modifica sutilmente a solicitação do sistema usando marcadores Unicode quase invisíveis.” “A classificação de proxy/gateway está codificada em uma frase que se parece com uma expressão normal em inglês. Ela oculta uma lista de domínios nos formatos XOR e base64. A função não é maliciosa, mas é uma escolha estranha para um desenvolvedor que depende da confiança”, explicou um especialista sob o pseudônimo de Thereallo. A empresa também utilizou ferramentas de detecção com classificadores e sistemas de identificação comportamental, compartilhamento de informações com outros laboratórios de IA, controle de acesso e contramedidas que dificultam a replicação do comportamento do modelo a partir de suas respostas.
Um vazamento do código-fonte do aplicativo Claude Code revelou outra forma de proteger a IA da Anthropic contra a extração de dados — a inclusão deArquivo Typescript com a flag “ANTI_DISTILLATION_CC”. Essa flag injeta dados fictícios em requisições de API, projetada para ser perigosa durante o treinamento de modelos de terceiros.