Cientistas da divisão Google DeepMind e de várias grandes universidades descobriram que os sistemas de inteligência artificial “lembram” pelo menos parte das informações recebidas durante o treinamento e podem devolvê-las em sua forma original, incluindo os dados pessoais das pessoas. Para isso, em particular, é utilizado o método de “ataque de divergência” – um grande modelo de linguagem recebe um comando para repetir a mesma palavra. Ainda não há explicação para esse efeito.

Fonte da imagem: Viralyft / unsplash.com

Quando trechos de materiais de treinamento começaram a aparecer nas respostas da IA, os pesquisadores começaram a entender quantos dados a IA lembra e pode reproduzir, e que tipo de informação essa informação poderia ser. Eles também decidiram determinar se terceiros poderiam extrair dados do conjunto de treinamento sem saber antecipadamente o que ele continha. Os cientistas realizaram uma série de experimentos com diversos modelos de linguagem, inclusive os mais famosos, como GPT-Neo, LLaMA e ChatGPT. Eles geraram bilhões de tokens – palavras ou caracteres, dependendo do modelo – e compararam se as respostas correspondiam aos dados usados ​​para treinar esses modelos. Durante o trabalho, foi descoberto um método exclusivo de teste ChatGPT, que envolve repetir uma palavra um grande número de vezes, após o que a IA de repente começa a gerar conteúdo aleatório.

Acontece que esses modelos não apenas lembram fragmentos de dados de treinamento, mas também são capazes de reproduzi-los em sua forma original mediante o comando correto. O ChatGPT não foi exceção, cujos desenvolvedores realizaram configurações separadas para evitar tal efeito. Os pesquisadores chamam a atenção dos desenvolvedores para a necessidade urgente de testes abrangentes de modelos de IA – isso deve dizer respeito não apenas aos aspectos de interação com uma ampla gama de usuários na interface web, mas também à rede neural subjacente e ao sistema de interação API. É necessária uma abordagem holística à segurança para identificar vulnerabilidades ocultas que, de outra forma, passariam despercebidas.

Fonte da imagem: Arxiv.org

Nos experimentos, os cientistas extraíram diferentes tipos de dados brutos de treinamento, desde um relatório detalhado de pesquisa de investimento até código Python específico que resolveu problemas de aprendizado de máquina. De maior interesse é o “ataque de divergência” descoberto durante a interação com o ChatGPT – se você forçar o sistema a repetir a mesma palavra, ele começa a produzir dados obtidos durante o treinamento. Para ilustrar esse efeito, os cientistas mostraram que quando a palavra “poema” era repetida, o ChatGPT retornava repentinamente uma lista de informações de contato de uma pessoa real. Os dados pessoais neste estudo de cientistas foram encontrados com bastante frequência – eles identificaram 15 mil substrings geradas, que tiveram que ser analisadas separadamente: em 16,9% dos casos foram dados pessoais que a IA “lembrou” em sua forma original durante o treinamento; em 85,8% dos casos tratava-se de outras correspondências com dados reais.

Segundo os pesquisadores, isso indica sérios problemas de privacidade para os modelos de IA. E os desenvolvedores de sistemas de IA precisam entender que corrigir vulnerabilidades específicas em algoritmos de interface de usuário não é suficiente – requer intervenção na arquitetura dos próprios modelos. Ou seja, você pode definir um filtro de I/O para produzir dados pessoais para respostas, intencionais e acidentais, mas isso não resolverá o problema mais sério: o modelo tende a lembrar e, a princípio, é capaz de revelar fragmentos de dados de treinamento que são de natureza confidencial. Isso significa que é necessário trabalho adicional para desduplicar (remover elementos duplicados) os dados e compreender o impacto da capacidade do modelo no efeito memória. Também é necessário desenvolver métodos confiáveis ​​para testar a memória.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *