Categorias: Mercado de tecnologia e TI. notíciaVírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Os pesquisadores enganaram o ChatGPT para que ele divulgasse informações da matriz de treinamento

Cientistas da divisão Google DeepMind e de várias grandes universidades descobriram que os sistemas de inteligência artificial “lembram” pelo menos parte das informações recebidas durante o treinamento e podem devolvê-las em sua forma original, incluindo os dados pessoais das pessoas. Para isso, em particular, é utilizado o método de “ataque de divergência” – um grande modelo de linguagem recebe um comando para repetir a mesma palavra. Ainda não há explicação para esse efeito.

Fonte da imagem: Viralyft / unsplash.com

Quando trechos de materiais de treinamento começaram a aparecer nas respostas da IA, os pesquisadores começaram a entender quantos dados a IA lembra e pode reproduzir, e que tipo de informação essa informação poderia ser. Eles também decidiram determinar se terceiros poderiam extrair dados do conjunto de treinamento sem saber antecipadamente o que ele continha. Os cientistas realizaram uma série de experimentos com diversos modelos de linguagem, inclusive os mais famosos, como GPT-Neo, LLaMA e ChatGPT. Eles geraram bilhões de tokens – palavras ou caracteres, dependendo do modelo – e compararam se as respostas correspondiam aos dados usados para treinar esses modelos. Durante o trabalho, foi descoberto um método exclusivo de teste ChatGPT, que envolve repetir uma palavra um grande número de vezes, após o que a IA de repente começa a gerar conteúdo aleatório.

Acontece que esses modelos não apenas lembram fragmentos de dados de treinamento, mas também são capazes de reproduzi-los em sua forma original mediante o comando correto. O ChatGPT não foi exceção, cujos desenvolvedores realizaram configurações separadas para evitar tal efeito. Os pesquisadores chamam a atenção dos desenvolvedores para a necessidade urgente de testes abrangentes de modelos de IA – isso deve dizer respeito não apenas aos aspectos de interação com uma ampla gama de usuários na interface web, mas também à rede neural subjacente e ao sistema de interação API. É necessária uma abordagem holística à segurança para identificar vulnerabilidades ocultas que, de outra forma, passariam despercebidas.

Fonte da imagem: Arxiv.org

Nos experimentos, os cientistas extraíram diferentes tipos de dados brutos de treinamento, desde um relatório detalhado de pesquisa de investimento até código Python específico que resolveu problemas de aprendizado de máquina. De maior interesse é o “ataque de divergência” descoberto durante a interação com o ChatGPT – se você forçar o sistema a repetir a mesma palavra, ele começa a produzir dados obtidos durante o treinamento. Para ilustrar esse efeito, os cientistas mostraram que quando a palavra “poema” era repetida, o ChatGPT retornava repentinamente uma lista de informações de contato de uma pessoa real. Os dados pessoais neste estudo de cientistas foram encontrados com bastante frequência – eles identificaram 15 mil substrings geradas, que tiveram que ser analisadas separadamente: em 16,9% dos casos foram dados pessoais que a IA “lembrou” em sua forma original durante o treinamento; em 85,8% dos casos tratava-se de outras correspondências com dados reais.

Segundo os pesquisadores, isso indica sérios problemas de privacidade para os modelos de IA. E os desenvolvedores de sistemas de IA precisam entender que corrigir vulnerabilidades específicas em algoritmos de interface de usuário não é suficiente – requer intervenção na arquitetura dos próprios modelos. Ou seja, você pode definir um filtro de I/O para produzir dados pessoais para respostas, intencionais e acidentais, mas isso não resolverá o problema mais sério: o modelo tende a lembrar e, a princípio, é capaz de revelar fragmentos de dados de treinamento que são de natureza confidencial. Isso significa que é necessário trabalho adicional para desduplicar (remover elementos duplicados) os dados e compreender o impacto da capacidade do modelo no efeito memória. Também é necessário desenvolver métodos confiáveis para testar a memória.

avalanche

Próximo Hoje a Tesla fará uma apresentação do Cybertruck - serão lançadas vendas, especificações e preços serão revelados »

Anterior « Elon Musk: Nem um único macaco morreu devido a implantes cerebrais Neuralink

Deixar comentário

Publicado por

avalanche

3 anos atrás

Postagens recentes

Sistemas de refrigeração

A Noctua pretende lançar versões pretas do sistema de suporte de vida NL-LC1 até o final deste ano

A Noctua confirmou que até o final deste ano planeja lançar uma versão preta de…

2 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A MSI testou a compatibilidade da memória chinesa CXMT DDR5-8000+ com placas-mãe AMD AM5

\nA MSI lançou um novo BIOS de teste para placas-mãe AMD, fornecendo suporte aprimorado para…

2 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Apesar do preço de até US$ 2.500, o iPhone Ultra dobrável estará em falta no início

Neste outono, em setembro, a Apple deverá apresentar o smartphone dobrável iPhone Ultra junto com…

3 horas atrás

Desenvolvimento e fabricação de eletrônicos

Trabalhadores da Samsung privados de bônus entrarão em greve na próxima semana

\nEm maio deste ano, o maior sindicato de funcionários da Samsung Electronics conseguiu, durante negociações…

3 horas atrás

Jogos

“Droga, parece ótimo”: um blogueiro mostrou quatro horas de gameplay de Assassin’s Creed Black Flag Resynced, e os fãs estão maravilhados

\nEmbora ainda faltem alguns dias para o lançamento do aguardado remake do thriller de ação…

4 horas atrás

Desenvolvimento e fabricação de eletrônicos

Os servidores Nvidia Kyber baseados em Rubin Ultra serão adiados até 2028 devido a dificuldades de produção

\nA agência de notícias CNBC, citando a empresa analítica SemiAnalysis, informou que a Nvidia adiou…

5 horas atrás