A Anthropic removeu uma proteção oculta que impedia desenvolvedores chineses de extrair modelos de IA do Claude.

A Anthropic afirmou que sua atualização de 1º de julho para o Claude Code removeu um código oculto que havia sido adicionado meses antes e que tinha como objetivo identificar outros desenvolvedores de IA que tentassem roubar dados de seus modelos.

Fonte da imagem: anthropic.com

“Lançamos este experimento em março, e ele foi projetado para impedir o uso indevido de contas por revendedores não autorizados e proteger contra a extração de dados. Desde então, a empresa desenvolveu proteções mais eficazes e, na verdade, já tínhamos a intenção de removê-lo há algum tempo”, explicou Thariq Shihipar, engenheiro da Anthropic.

O experimento consistia em aplicar esteganografia — ocultar dados sensíveis à vista de todos — ao contexto do sistema Claude Code transmitido aos servidores da Anthropic. O código verificava a variável de URL base usada para rotear as solicitações de API para um gateway ou servidor proxy. Se a URL base fosse alterada, o código verificava o fuso horário do sistema e fazia uma comparação com uma lista de endereços de laboratórios chineses conhecidos e outras empresas de IA, revendedores de contas e domínios de gateway.

“O Claude Code modifica sutilmente a solicitação do sistema usando marcadores Unicode quase invisíveis.” “A classificação de proxy/gateway está codificada em uma frase que se parece com uma expressão normal em inglês. Ela oculta uma lista de domínios nos formatos XOR e base64. A função não é maliciosa, mas é uma escolha estranha para um desenvolvedor que depende da confiança”, explicou um especialista sob o pseudônimo de Thereallo. A empresa também utilizou ferramentas de detecção com classificadores e sistemas de identificação comportamental, compartilhamento de informações com outros laboratórios de IA, controle de acesso e contramedidas que dificultam a replicação do comportamento do modelo a partir de suas respostas.

Um vazamento do código-fonte do aplicativo Claude Code revelou outra forma de proteger a IA da Anthropic contra a extração de dados — a inclusão deArquivo Typescript com a flag “ANTI_DISTILLATION_CC”. Essa flag injeta dados fictícios em requisições de API, projetada para ser perigosa durante o treinamento de modelos de terceiros.

admin

Postagens recentes

A Oracle admitiu que poderia fracassar em seu negócio de data centers com inteligência artificial, mas não há como voltar atrás.

A Oracle investe centenas de bilhões de dólares em data centers para empresas como a…

25 minutos atrás

O primeiro sistema de armazenamento de energia por dióxido de carbono comprimido do mundo será construído na Irlanda.

A empresa italiana Energy Dome e o Google lançaram o primeiro projeto comercial conjunto para…

36 minutos atrás

As autoridades americanas propuseram que os desenvolvedores de IA criem padrões uniformes para os modelos.

O governo dos EUA está negociando ativamente com empresas que desenvolvem sistemas de inteligência artificial,…

2 horas atrás

O Ministério da Justiça do Brasil desclassificou a sequência da lendária série da Nintendo.

Quase cinco anos se passaram desde o lançamento de Metroid Dread, o jogo favorito dos…

3 horas atrás

A União Europeia poderá proibir o uso de redes sociais por crianças já em setembro.

A União Europeia poderá anunciar uma proibição do acesso de crianças às redes sociais em…

3 horas atrás