A Anthropic removeu uma proteção oculta que impedia desenvolvedores chineses de extrair modelos de IA do Claude.

A Anthropic afirmou que sua atualização de 1º de julho para o Claude Code removeu um código oculto que havia sido adicionado meses antes e que tinha como objetivo identificar outros desenvolvedores de IA que tentassem roubar dados de seus modelos.

Fonte da imagem: anthropic.com

“Lançamos este experimento em março, e ele foi projetado para impedir o uso indevido de contas por revendedores não autorizados e proteger contra a extração de dados. Desde então, a empresa desenvolveu proteções mais eficazes e, na verdade, já tínhamos a intenção de removê-lo há algum tempo”, explicou Thariq Shihipar, engenheiro da Anthropic.

O experimento consistia em aplicar esteganografia — ocultar dados sensíveis à vista de todos — ao contexto do sistema Claude Code transmitido aos servidores da Anthropic. O código verificava a variável de URL base usada para rotear as solicitações de API para um gateway ou servidor proxy. Se a URL base fosse alterada, o código verificava o fuso horário do sistema e fazia uma comparação com uma lista de endereços de laboratórios chineses conhecidos e outras empresas de IA, revendedores de contas e domínios de gateway.

“O Claude Code modifica sutilmente a solicitação do sistema usando marcadores Unicode quase invisíveis.” “A classificação de proxy/gateway está codificada em uma frase que se parece com uma expressão normal em inglês. Ela oculta uma lista de domínios nos formatos XOR e base64. A função não é maliciosa, mas é uma escolha estranha para um desenvolvedor que depende da confiança”, explicou um especialista sob o pseudônimo de Thereallo. A empresa também utilizou ferramentas de detecção com classificadores e sistemas de identificação comportamental, compartilhamento de informações com outros laboratórios de IA, controle de acesso e contramedidas que dificultam a replicação do comportamento do modelo a partir de suas respostas.

Um vazamento do código-fonte do aplicativo Claude Code revelou outra forma de proteger a IA da Anthropic contra a extração de dados — a inclusão deArquivo Typescript com a flag “ANTI_DISTILLATION_CC”. Essa flag injeta dados fictícios em requisições de API, projetada para ser perigosa durante o treinamento de modelos de terceiros.

A Anthropic removeu uma proteção oculta que impedia desenvolvedores chineses de extrair modelos de IA do Claude.

Byadmin

By admin

Veja Mais

Inteligência artificial e deepfakes são usados em um em cada oito golpes bem-sucedidos.

O Chrome 150 foi lançado, corrigindo quase 400 vulnerabilidades, incluindo 15 críticas.

A IA estava convencida de que “2 + 2 = 4” – após o que divulgou as senhas do usuário.

Deixe um comentário Cancelar resposta

A Anthropic removeu uma proteção oculta que impedia desenvolvedores chineses de extrair modelos de IA do Claude.

Byadmin

By admin

Veja Mais

Inteligência artificial e deepfakes são usados ​​em um em cada oito golpes bem-sucedidos.

O Chrome 150 foi lançado, corrigindo quase 400 vulnerabilidades, incluindo 15 críticas.

A IA estava convencida de que “2 + 2 = 4” – após o que divulgou as senhas do usuário.

Deixe um comentário Cancelar resposta

Inteligência artificial e deepfakes são usados em um em cada oito golpes bem-sucedidos.