As defesas da IA ​​ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Cientistas enganaram com sucesso todos os chatbots, forçando-os a divulgar informações de natureza científica, sexual e outras, cuja disseminação era proibida. Descobriu-se que a poesia humana comum é uma forma natural de ataque adversário. Uma mensagem formulada em forma poética conseguiu contornar os filtros de IA mais rigorosos com uma taxa de sucesso superior a 90%.

Fonte da imagem: Geração de IA Grok 4.1

O estudo foi conduzido pelo Icaro Lab, um projeto conjunto da Universidade Sapienza de Roma e do think tank DexAI. Eles testaram essa abordagem em 25 chatbots criados por empresas como OpenAI, Meta✴ e Anthropic. O método funcionou com diferentes graus de sucesso em todos eles. Meta✴, Anthropic e OpenAI não forneceram aos pesquisadores nenhum comentário ou informação sobre se tomariam medidas de mitigação.

O método de ataque adversário envolve confundir os esquemas de segurança de informações sensíveis. Para isso, a consulta é formulada de maneira que a tarefa não seja declarada diretamente, mas sim figurativamente, com a adição de “lixo” textual — finais sem sentido, palavras embaralhadas ou simplesmente texto incoerente. Nesse contexto, a poesia é o ápice da alusão, da seleção de metáforas e de frases inesperadas.

Para consultas escritas em forma de poesia, uma resposta detalhada à pergunta “proibida” foi fornecida em 62% dos casos, enquanto a IA não respondeu à consulta direta. Para consultas poéticas geradas por IA, a taxa de sucesso foi de 43%. Em alguns casos, a taxa de resposta ultrapassou 90%. Os mecanismos de defesa da IA ​​são suscetíveis a esse ataque, forçando grandes modelos de linguagem a, de certa forma, responderem criativamente à consulta proibida, contornando os gatilhos de defesa.

Por razões éticas, os cientistas não publicaram os poemas que usaram para extrair a receita de uma bomba atômica, códigos de malware e outras informações de chatbots. Eles recomendaram que os desenvolvedores de software fortaleçam suas defesas, passando de filtros superficiais para mecanismos mais profundos que levem em consideração…manipulação estilística de palavras.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Intel está perdendo jogadores, o Windows 11 está crescendo e o Linux bate recorde — Estatísticas do Steam em novembro (3DNews)

A plataforma de jogos Steam publicou novas estatísticas sobre as configurações de hardware de seus…

13 minutos atrás

Os primeiros óculos de realidade aumentada do mundo, o Xreal 1S, com conversão automática de vídeo 2D para 3D, foram anunciados por US$ 435.

A fabricante chinesa de óculos inteligentes Xreal apresentou o Xreal 1S, seu modelo básico de…

43 minutos atrás

Descobertas ‘canhões de plasma’ de escala cósmica – 53 quasares com jatos de milhões de anos-luz de comprimento (3DNews)

Uma equipe internacional de astrônomos anunciou a descoberta de 53 quasares de rádio poderosos, até…

2 horas atrás

Mais um acordo rotativo na bolha da IA: a OpenAI adquiriu uma participação em sua própria investidora, a 3DNews.

A OpenAI anunciou a aquisição de uma participação na empresa de private equity Thrive Holdings,…

2 horas atrás

A Samsung Electronics criou uma unidade especial para adquirir outras empresas.

A Samsung Electronics concluiu sua última grande aquisição de outra empresa no início de 2016,…

2 horas atrás