Cientistas da divisão Google DeepMind e de várias grandes universidades descobriram que os sistemas de inteligência artificial “lembram” pelo menos parte das informações recebidas durante o treinamento e podem devolvê-las em sua forma original, incluindo os dados pessoais das pessoas. Para isso, em particular, é utilizado o método de “ataque de divergência” – um grande modelo de linguagem recebe um comando para repetir a mesma palavra. Ainda não há explicação para esse efeito.

Fonte da imagem: Viralyft / unsplash.com

Quando trechos de materiais de treinamento começaram a aparecer nas respostas da IA, os pesquisadores começaram a entender quantos dados a IA lembra e pode reproduzir, e que tipo de informação essa informação poderia ser. Eles também decidiram determinar se terceiros poderiam extrair dados do conjunto de treinamento sem saber antecipadamente o que ele continha. Os cientistas realizaram uma série de experimentos com diversos modelos de linguagem, inclusive os mais famosos, como GPT-Neo, LLaMA e ChatGPT. Eles geraram bilhões de tokens – palavras ou caracteres, dependendo do modelo – e compararam se as respostas correspondiam aos dados usados ​​para treinar esses modelos. Durante o trabalho, foi descoberto um método exclusivo de teste ChatGPT, que envolve repetir uma palavra um grande número de vezes, após o que a IA de repente começa a gerar conteúdo aleatório.

Acontece que esses modelos não apenas lembram fragmentos de dados de treinamento, mas também são capazes de reproduzi-los em sua forma original mediante o comando correto. O ChatGPT não foi exceção, cujos desenvolvedores realizaram configurações separadas para evitar tal efeito. Os pesquisadores chamam a atenção dos desenvolvedores para a necessidade urgente de testes abrangentes de modelos de IA – isso deve dizer respeito não apenas aos aspectos de interação com uma ampla gama de usuários na interface web, mas também à rede neural subjacente e ao sistema de interação API. É necessária uma abordagem holística à segurança para identificar vulnerabilidades ocultas que, de outra forma, passariam despercebidas.

Fonte da imagem: Arxiv.org

Nos experimentos, os cientistas extraíram diferentes tipos de dados brutos de treinamento, desde um relatório detalhado de pesquisa de investimento até código Python específico que resolveu problemas de aprendizado de máquina. De maior interesse é o “ataque de divergência” descoberto durante a interação com o ChatGPT – se você forçar o sistema a repetir a mesma palavra, ele começa a produzir dados obtidos durante o treinamento. Para ilustrar esse efeito, os cientistas mostraram que quando a palavra “poema” era repetida, o ChatGPT retornava repentinamente uma lista de informações de contato de uma pessoa real. Os dados pessoais neste estudo de cientistas foram encontrados com bastante frequência – eles identificaram 15 mil substrings geradas, que tiveram que ser analisadas separadamente: em 16,9% dos casos foram dados pessoais que a IA “lembrou” em sua forma original durante o treinamento; em 85,8% dos casos tratava-se de outras correspondências com dados reais.

Segundo os pesquisadores, isso indica sérios problemas de privacidade para os modelos de IA. E os desenvolvedores de sistemas de IA precisam entender que corrigir vulnerabilidades específicas em algoritmos de interface de usuário não é suficiente – requer intervenção na arquitetura dos próprios modelos. Ou seja, você pode definir um filtro de I/O para produzir dados pessoais para respostas, intencionais e acidentais, mas isso não resolverá o problema mais sério: o modelo tende a lembrar e, a princípio, é capaz de revelar fragmentos de dados de treinamento que são de natureza confidencial. Isso significa que é necessário trabalho adicional para desduplicar (remover elementos duplicados) os dados e compreender o impacto da capacidade do modelo no efeito memória. Também é necessário desenvolver métodos confiáveis ​​para testar a memória.

avalanche

Postagens recentes

A Europa provou que consegue construir sua própria CPU para servidores usando a arquitetura RISC-V e a tecnologia de processo 3G da Intel.

Reduzir a dependência das importações também é importante para os desenvolvedores europeus de infraestrutura crítica,…

31 minutos atrás

O jogo roguelike com gatos Mewgenics, do criador de The Binding of Isaac, ultrapassou Hades 2 em pico de jogadores online no Steam e está a caminho dos consoles.

Mewgenics, o RPG tático roguelike de criação de gatos dos criadores de The Binding of…

42 minutos atrás

A empresa chinesa Montage Technology lançou os processadores para servidores Jintide, baseados no Intel Xeon 6.

A empresa chinesa Montage Technology, que recentemente concluiu sua oferta pública inicial (IPO) na Bolsa…

53 minutos atrás

Fontes internas: O próximo grande jogo do diretor de God of War será lançado em 2027, e o anúncio está prestes a ser feito.

O próximo grande jogo do Santa Monica Studio, pertencente à Sony, e de Cory Barlog,…

2 horas atrás

Fontes internas: O próximo grande jogo do diretor de God of War será lançado em 2027, e o anúncio está prestes a ser feito.

O próximo grande jogo do Santa Monica Studio, pertencente à Sony, e de Cory Barlog,…

2 horas atrás

Empresas chinesas lançaram diversos novos modelos de IA na semana passada.

Enquanto o mercado de IA dos EUA estava ocupado na semana passada estudando o impacto…

2 horas atrás