As defesas da IA ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Cientistas enganaram com sucesso todos os chatbots, forçando-os a divulgar informações de natureza científica, sexual e outras, cuja disseminação era proibida. Descobriu-se que a poesia humana comum é uma forma natural de ataque adversário. Uma mensagem formulada em forma poética conseguiu contornar os filtros de IA mais rigorosos com uma taxa de sucesso superior a 90%.

Fonte da imagem: Geração de IA Grok 4.1

O estudo foi conduzido pelo Icaro Lab, um projeto conjunto da Universidade Sapienza de Roma e do think tank DexAI. Eles testaram essa abordagem em 25 chatbots criados por empresas como OpenAI, Meta✴ e Anthropic. O método funcionou com diferentes graus de sucesso em todos eles. Meta✴, Anthropic e OpenAI não forneceram aos pesquisadores nenhum comentário ou informação sobre se tomariam medidas de mitigação.

O método de ataque adversário envolve confundir os esquemas de segurança de informações sensíveis. Para isso, a consulta é formulada de maneira que a tarefa não seja declarada diretamente, mas sim figurativamente, com a adição de “lixo” textual — finais sem sentido, palavras embaralhadas ou simplesmente texto incoerente. Nesse contexto, a poesia é o ápice da alusão, da seleção de metáforas e de frases inesperadas.

Para consultas escritas em forma de poesia, uma resposta detalhada à pergunta “proibida” foi fornecida em 62% dos casos, enquanto a IA não respondeu à consulta direta. Para consultas poéticas geradas por IA, a taxa de sucesso foi de 43%. Em alguns casos, a taxa de resposta ultrapassou 90%. Os mecanismos de defesa da IA são suscetíveis a esse ataque, forçando grandes modelos de linguagem a, de certa forma, responderem criativamente à consulta proibida, contornando os gatilhos de defesa.

Por razões éticas, os cientistas não publicaram os poemas que usaram para extrair a receita de uma bomba atômica, códigos de malware e outras informações de chatbots. Eles recomendaram que os desenvolvedores de software fortaleçam suas defesas, passando de filtros superficiais para mecanismos mais profundos que levem em consideração…manipulação estilística de palavras.

As defesas da IA ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Byadmin

By admin

Veja Mais

Uma das principais vantagens da IA do Google é que ela sabe muito sobre o usuário — e nem todo mundo gosta disso.

Os modelos de IA de código aberto chineses estão sendo incorporados a aplicativos americanos e são mais baratos do que as soluções da OpenAI e da Anthropic 3DNews.

A OpenAI recebeu um alerta vermelho: Altman exige que todos os esforços sejam concentrados na melhoria urgente do ChatGPT 3DNews.

Deixe um comentário Cancelar resposta

As defesas da IA ​​ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Byadmin

By admin

Veja Mais

Uma das principais vantagens da IA ​​do Google é que ela sabe muito sobre o usuário — e nem todo mundo gosta disso.

Os modelos de IA de código aberto chineses estão sendo incorporados a aplicativos americanos e são mais baratos do que as soluções da OpenAI e da Anthropic 3DNews.

A OpenAI recebeu um alerta vermelho: Altman exige que todos os esforços sejam concentrados na melhoria urgente do ChatGPT 3DNews.

Deixe um comentário Cancelar resposta

As defesas da IA ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Uma das principais vantagens da IA do Google é que ela sabe muito sobre o usuário — e nem todo mundo gosta disso.