Cientistas enganaram com sucesso todos os chatbots, forçando-os a divulgar informações de natureza científica, sexual e outras, cuja disseminação era proibida. Descobriu-se que a poesia humana comum é uma forma natural de ataque adversário. Uma mensagem formulada em forma poética conseguiu contornar os filtros de IA mais rigorosos com uma taxa de sucesso superior a 90%.

Fonte da imagem: Geração de IA Grok 4.1

O estudo foi conduzido pelo Icaro Lab, um projeto conjunto da Universidade Sapienza de Roma e do think tank DexAI. Eles testaram essa abordagem em 25 chatbots criados por empresas como OpenAI, Meta✴ e Anthropic. O método funcionou com diferentes graus de sucesso em todos eles. Meta✴, Anthropic e OpenAI não forneceram aos pesquisadores nenhum comentário ou informação sobre se tomariam medidas de mitigação.

O método de ataque adversário envolve confundir os esquemas de segurança de informações sensíveis. Para isso, a consulta é formulada de maneira que a tarefa não seja declarada diretamente, mas sim figurativamente, com a adição de “lixo” textual — finais sem sentido, palavras embaralhadas ou simplesmente texto incoerente. Nesse contexto, a poesia é o ápice da alusão, da seleção de metáforas e de frases inesperadas.

Para consultas escritas em forma de poesia, uma resposta detalhada à pergunta “proibida” foi fornecida em 62% dos casos, enquanto a IA não respondeu à consulta direta. Para consultas poéticas geradas por IA, a taxa de sucesso foi de 43%. Em alguns casos, a taxa de resposta ultrapassou 90%. Os mecanismos de defesa da IA ​​são suscetíveis a esse ataque, forçando grandes modelos de linguagem a, de certa forma, responderem criativamente à consulta proibida, contornando os gatilhos de defesa.

Por razões éticas, os cientistas não publicaram os poemas que usaram para extrair a receita de uma bomba atômica, códigos de malware e outras informações de chatbots. Eles recomendaram que os desenvolvedores de software fortaleçam suas defesas, passando de filtros superficiais para mecanismos mais profundos que levem em consideração…manipulação estilística de palavras.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *