Cientistas enganaram com sucesso todos os chatbots, forçando-os a divulgar informações de natureza científica, sexual e outras, cuja disseminação era proibida. Descobriu-se que a poesia humana comum é uma forma natural de ataque adversário. Uma mensagem formulada em forma poética conseguiu contornar os filtros de IA mais rigorosos com uma taxa de sucesso superior a 90%.

Fonte da imagem: Geração de IA Grok 4.1
O estudo foi conduzido pelo Icaro Lab, um projeto conjunto da Universidade Sapienza de Roma e do think tank DexAI. Eles testaram essa abordagem em 25 chatbots criados por empresas como OpenAI, Meta✴ e Anthropic. O método funcionou com diferentes graus de sucesso em todos eles. Meta✴, Anthropic e OpenAI não forneceram aos pesquisadores nenhum comentário ou informação sobre se tomariam medidas de mitigação.
O método de ataque adversário envolve confundir os esquemas de segurança de informações sensíveis. Para isso, a consulta é formulada de maneira que a tarefa não seja declarada diretamente, mas sim figurativamente, com a adição de “lixo” textual — finais sem sentido, palavras embaralhadas ou simplesmente texto incoerente. Nesse contexto, a poesia é o ápice da alusão, da seleção de metáforas e de frases inesperadas.
Para consultas escritas em forma de poesia, uma resposta detalhada à pergunta “proibida” foi fornecida em 62% dos casos, enquanto a IA não respondeu à consulta direta. Para consultas poéticas geradas por IA, a taxa de sucesso foi de 43%. Em alguns casos, a taxa de resposta ultrapassou 90%. Os mecanismos de defesa da IA são suscetíveis a esse ataque, forçando grandes modelos de linguagem a, de certa forma, responderem criativamente à consulta proibida, contornando os gatilhos de defesa.
Por razões éticas, os cientistas não publicaram os poemas que usaram para extrair a receita de uma bomba atômica, códigos de malware e outras informações de chatbots. Eles recomendaram que os desenvolvedores de software fortaleçam suas defesas, passando de filtros superficiais para mecanismos mais profundos que levem em consideração…manipulação estilística de palavras.
