Cientistas da divisão Google DeepMind e de várias grandes universidades descobriram que os sistemas de inteligência artificial “lembram” pelo menos parte das informações recebidas durante o treinamento e podem devolvê-las em sua forma original, incluindo os dados pessoais das pessoas. Para isso, em particular, é utilizado o método de “ataque de divergência” – um grande modelo de linguagem recebe um comando para repetir a mesma palavra. Ainda não há explicação para esse efeito.

Fonte da imagem: Viralyft / unsplash.com

Quando trechos de materiais de treinamento começaram a aparecer nas respostas da IA, os pesquisadores começaram a entender quantos dados a IA lembra e pode reproduzir, e que tipo de informação essa informação poderia ser. Eles também decidiram determinar se terceiros poderiam extrair dados do conjunto de treinamento sem saber antecipadamente o que ele continha. Os cientistas realizaram uma série de experimentos com diversos modelos de linguagem, inclusive os mais famosos, como GPT-Neo, LLaMA e ChatGPT. Eles geraram bilhões de tokens – palavras ou caracteres, dependendo do modelo – e compararam se as respostas correspondiam aos dados usados ​​para treinar esses modelos. Durante o trabalho, foi descoberto um método exclusivo de teste ChatGPT, que envolve repetir uma palavra um grande número de vezes, após o que a IA de repente começa a gerar conteúdo aleatório.

Acontece que esses modelos não apenas lembram fragmentos de dados de treinamento, mas também são capazes de reproduzi-los em sua forma original mediante o comando correto. O ChatGPT não foi exceção, cujos desenvolvedores realizaram configurações separadas para evitar tal efeito. Os pesquisadores chamam a atenção dos desenvolvedores para a necessidade urgente de testes abrangentes de modelos de IA – isso deve dizer respeito não apenas aos aspectos de interação com uma ampla gama de usuários na interface web, mas também à rede neural subjacente e ao sistema de interação API. É necessária uma abordagem holística à segurança para identificar vulnerabilidades ocultas que, de outra forma, passariam despercebidas.

Fonte da imagem: Arxiv.org

Nos experimentos, os cientistas extraíram diferentes tipos de dados brutos de treinamento, desde um relatório detalhado de pesquisa de investimento até código Python específico que resolveu problemas de aprendizado de máquina. De maior interesse é o “ataque de divergência” descoberto durante a interação com o ChatGPT – se você forçar o sistema a repetir a mesma palavra, ele começa a produzir dados obtidos durante o treinamento. Para ilustrar esse efeito, os cientistas mostraram que quando a palavra “poema” era repetida, o ChatGPT retornava repentinamente uma lista de informações de contato de uma pessoa real. Os dados pessoais neste estudo de cientistas foram encontrados com bastante frequência – eles identificaram 15 mil substrings geradas, que tiveram que ser analisadas separadamente: em 16,9% dos casos foram dados pessoais que a IA “lembrou” em sua forma original durante o treinamento; em 85,8% dos casos tratava-se de outras correspondências com dados reais.

Segundo os pesquisadores, isso indica sérios problemas de privacidade para os modelos de IA. E os desenvolvedores de sistemas de IA precisam entender que corrigir vulnerabilidades específicas em algoritmos de interface de usuário não é suficiente – requer intervenção na arquitetura dos próprios modelos. Ou seja, você pode definir um filtro de I/O para produzir dados pessoais para respostas, intencionais e acidentais, mas isso não resolverá o problema mais sério: o modelo tende a lembrar e, a princípio, é capaz de revelar fragmentos de dados de treinamento que são de natureza confidencial. Isso significa que é necessário trabalho adicional para desduplicar (remover elementos duplicados) os dados e compreender o impacto da capacidade do modelo no efeito memória. Também é necessário desenvolver métodos confiáveis ​​para testar a memória.

avalanche

Postagens recentes

A Valve permitiu que os desenvolvedores do Steam mantivessem sua IA oculta, mas apenas se os jogadores não a virem.

A Valve fez esclarecimentos importantes em sua política de publicação de jogos no Steam em…

2 horas atrás

O Ryzen 7 9800X3D continua a morrer misteriosamente: agora também em placas-mãe Asus.

Nas últimas duas semanas, pelo menos cinco publicações apareceram no Reddit relatando falhas em processadores…

2 horas atrás

A Microsoft lançou uma atualização de emergência para o Windows 11 para ajudar os PCs a serem desligados corretamente novamente.

A Microsoft foi obrigada a lançar uma atualização de emergência para o Windows 11, apenas…

3 horas atrás

O TikTok lançou uma espécie de “Netflix para a Geração Z” — um serviço de microdramas chamado PineDrama.

O TikTok lançou discretamente um novo aplicativo, o PineDrama, para microdramas — vídeos curtos na…

4 horas atrás

O Google Chrome agora permite que os usuários desativem a IA local para se protegerem contra fraudes.

Os usuários do Google Chrome agora podem desativar o modelo de IA executado localmente que…

5 horas atrás