Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

As defesas da IA ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Cientistas enganaram com sucesso todos os chatbots, forçando-os a divulgar informações de natureza científica, sexual e outras, cuja disseminação era proibida. Descobriu-se que a poesia humana comum é uma forma natural de ataque adversário. Uma mensagem formulada em forma poética conseguiu contornar os filtros de IA mais rigorosos com uma taxa de sucesso superior a 90%.

Fonte da imagem: Geração de IA Grok 4.1

O estudo foi conduzido pelo Icaro Lab, um projeto conjunto da Universidade Sapienza de Roma e do think tank DexAI. Eles testaram essa abordagem em 25 chatbots criados por empresas como OpenAI, Meta✴ e Anthropic. O método funcionou com diferentes graus de sucesso em todos eles. Meta✴, Anthropic e OpenAI não forneceram aos pesquisadores nenhum comentário ou informação sobre se tomariam medidas de mitigação.

O método de ataque adversário envolve confundir os esquemas de segurança de informações sensíveis. Para isso, a consulta é formulada de maneira que a tarefa não seja declarada diretamente, mas sim figurativamente, com a adição de “lixo” textual — finais sem sentido, palavras embaralhadas ou simplesmente texto incoerente. Nesse contexto, a poesia é o ápice da alusão, da seleção de metáforas e de frases inesperadas.

Para consultas escritas em forma de poesia, uma resposta detalhada à pergunta “proibida” foi fornecida em 62% dos casos, enquanto a IA não respondeu à consulta direta. Para consultas poéticas geradas por IA, a taxa de sucesso foi de 43%. Em alguns casos, a taxa de resposta ultrapassou 90%. Os mecanismos de defesa da IA são suscetíveis a esse ataque, forçando grandes modelos de linguagem a, de certa forma, responderem criativamente à consulta proibida, contornando os gatilhos de defesa.

Por razões éticas, os cientistas não publicaram os poemas que usaram para extrair a receita de uma bomba atômica, códigos de malware e outras informações de chatbots. Eles recomendaram que os desenvolvedores de software fortaleçam suas defesas, passando de filtros superficiais para mecanismos mais profundos que levem em consideração…manipulação estilística de palavras.

admin

Próximo Uma das principais vantagens da IA do Google é que ela sabe muito sobre o usuário — e nem todo mundo gosta disso. »

Anterior « Os primeiros óculos de realidade aumentada do mundo, o Xreal 1S, com conversão automática de vídeo 2D para 3D, foram anunciados por US$ 435.

Deixar comentário

Publicado por

admin

23 minutos atrás

Postagens recentes

Processadores

A Intel está perdendo jogadores, o Windows 11 está crescendo e o Linux bate recorde — Estatísticas do Steam em novembro (3DNews)

A plataforma de jogos Steam publicou novas estatísticas sobre as configurações de hardware de seus…

13 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Uma das principais vantagens da IA do Google é que ela sabe muito sobre o usuário — e nem todo mundo gosta disso.

O principal diferencial entre o assistente de IA Gemini e serviços similares é sua profunda…

23 minutos atrás

Eletrônica vestível

Os primeiros óculos de realidade aumentada do mundo, o Xreal 1S, com conversão automática de vídeo 2D para 3D, foram anunciados por US$ 435.

A fabricante chinesa de óculos inteligentes Xreal apresentou o Xreal 1S, seu modelo básico de…

43 minutos atrás

Na vanguarda da ciência

Descobertas ‘canhões de plasma’ de escala cósmica – 53 quasares com jatos de milhões de anos-luz de comprimento (3DNews)

Uma equipe internacional de astrônomos anunciou a descoberta de 53 quasares de rádio poderosos, até…

2 horas atrás

Notícias e análises financeiras

Mais um acordo rotativo na bolha da IA: a OpenAI adquiriu uma participação em sua própria investidora, a 3DNews.

A OpenAI anunciou a aquisição de uma participação na empresa de private equity Thrive Holdings,…

2 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A Samsung Electronics criou uma unidade especial para adquirir outras empresas.

A Samsung Electronics concluiu sua última grande aquisição de outra empresa no início de 2016,…

2 horas atrás

As defesas da IA ​​ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Postagens recentes

A Intel está perdendo jogadores, o Windows 11 está crescendo e o Linux bate recorde — Estatísticas do Steam em novembro (3DNews)

Uma das principais vantagens da IA ​​do Google é que ela sabe muito sobre o usuário — e nem todo mundo gosta disso.

Os primeiros óculos de realidade aumentada do mundo, o Xreal 1S, com conversão automática de vídeo 2D para 3D, foram anunciados por US$ 435.

Descobertas ‘canhões de plasma’ de escala cósmica – 53 quasares com jatos de milhões de anos-luz de comprimento (3DNews)

Mais um acordo rotativo na bolha da IA: a OpenAI adquiriu uma participação em sua própria investidora, a 3DNews.

A Samsung Electronics criou uma unidade especial para adquirir outras empresas.

As defesas da IA ruíram diante das palavras do poeta – perguntas em versos permitiram que ele extraísse os segredos da bomba atômica e algo pior. (3DNews)

Uma das principais vantagens da IA do Google é que ela sabe muito sobre o usuário — e nem todo mundo gosta disso.