Cientistas da divisão Google DeepMind e de várias grandes universidades descobriram que os sistemas de inteligência artificial “lembram” pelo menos parte das informações recebidas durante o treinamento e podem devolvê-las em sua forma original, incluindo os dados pessoais das pessoas. Para isso, em particular, é utilizado o método de “ataque de divergência” – um grande modelo de linguagem recebe um comando para repetir a mesma palavra. Ainda não há explicação para esse efeito.

Fonte da imagem: Viralyft / unsplash.com

Quando trechos de materiais de treinamento começaram a aparecer nas respostas da IA, os pesquisadores começaram a entender quantos dados a IA lembra e pode reproduzir, e que tipo de informação essa informação poderia ser. Eles também decidiram determinar se terceiros poderiam extrair dados do conjunto de treinamento sem saber antecipadamente o que ele continha. Os cientistas realizaram uma série de experimentos com diversos modelos de linguagem, inclusive os mais famosos, como GPT-Neo, LLaMA e ChatGPT. Eles geraram bilhões de tokens – palavras ou caracteres, dependendo do modelo – e compararam se as respostas correspondiam aos dados usados ​​para treinar esses modelos. Durante o trabalho, foi descoberto um método exclusivo de teste ChatGPT, que envolve repetir uma palavra um grande número de vezes, após o que a IA de repente começa a gerar conteúdo aleatório.

Acontece que esses modelos não apenas lembram fragmentos de dados de treinamento, mas também são capazes de reproduzi-los em sua forma original mediante o comando correto. O ChatGPT não foi exceção, cujos desenvolvedores realizaram configurações separadas para evitar tal efeito. Os pesquisadores chamam a atenção dos desenvolvedores para a necessidade urgente de testes abrangentes de modelos de IA – isso deve dizer respeito não apenas aos aspectos de interação com uma ampla gama de usuários na interface web, mas também à rede neural subjacente e ao sistema de interação API. É necessária uma abordagem holística à segurança para identificar vulnerabilidades ocultas que, de outra forma, passariam despercebidas.

Fonte da imagem: Arxiv.org

Nos experimentos, os cientistas extraíram diferentes tipos de dados brutos de treinamento, desde um relatório detalhado de pesquisa de investimento até código Python específico que resolveu problemas de aprendizado de máquina. De maior interesse é o “ataque de divergência” descoberto durante a interação com o ChatGPT – se você forçar o sistema a repetir a mesma palavra, ele começa a produzir dados obtidos durante o treinamento. Para ilustrar esse efeito, os cientistas mostraram que quando a palavra “poema” era repetida, o ChatGPT retornava repentinamente uma lista de informações de contato de uma pessoa real. Os dados pessoais neste estudo de cientistas foram encontrados com bastante frequência – eles identificaram 15 mil substrings geradas, que tiveram que ser analisadas separadamente: em 16,9% dos casos foram dados pessoais que a IA “lembrou” em sua forma original durante o treinamento; em 85,8% dos casos tratava-se de outras correspondências com dados reais.

Segundo os pesquisadores, isso indica sérios problemas de privacidade para os modelos de IA. E os desenvolvedores de sistemas de IA precisam entender que corrigir vulnerabilidades específicas em algoritmos de interface de usuário não é suficiente – requer intervenção na arquitetura dos próprios modelos. Ou seja, você pode definir um filtro de I/O para produzir dados pessoais para respostas, intencionais e acidentais, mas isso não resolverá o problema mais sério: o modelo tende a lembrar e, a princípio, é capaz de revelar fragmentos de dados de treinamento que são de natureza confidencial. Isso significa que é necessário trabalho adicional para desduplicar (remover elementos duplicados) os dados e compreender o impacto da capacidade do modelo no efeito memória. Também é necessário desenvolver métodos confiáveis ​​para testar a memória.

avalanche

Postagens recentes

Uma fonte interna revelou a data de lançamento de Resident Evil 10 e confirmou o conteúdo adicional (DLC) para Resident Evil Requiem.

Quase cinco anos se passarão entre o lançamento de Resident Evil Village e o aguardado…

49 minutos atrás

Um novo estudo descobriu que Marte era úmido e quente bilhões de anos atrás, não gelado.

Estudar os processos que ocorreram em Marte é importante para que os cientistas na Terra…

2 horas atrás

A Microsoft corrigiu as falhas de inicialização do Windows 11 que surgiram com uma atualização recente.

A Microsoft anunciou uma correção para um bug do Windows 11 que impedia alguns computadores…

2 horas atrás

A Microsoft corrigiu as falhas de inicialização do Windows 11 que surgiram com uma atualização recente.

A Microsoft anunciou uma correção para um bug do Windows 11 que impedia alguns computadores…

2 horas atrás

A Estação Espacial Internacional (ISS) está novamente com uma equipe de cosmonautas e astronautas após a evacuação de emergência em janeiro.

No último sábado, 14 de fevereiro, a espaçonave tripulada Crew Dragon acoplou-se à Estação Espacial…

3 horas atrás

A ASML está se preparando para a adoção em massa da tecnologia EUV de alta NA no próximo ano para chips de 1,4 nm e mais finos.

A necessidade de maior miniaturização dos componentes semicondutores está forçando os fabricantes a migrarem para…

3 horas atrás