Cientistas hackeiam IA com nonsense: rearranjos de palavras burlam filtros e confundem modelos da 3DNews.

Cientistas americanos do MIT, da Northeastern University e da Meta✴ descobriram que modelos de linguagem de inteligência artificial em larga escala às vezes priorizam a estrutura da frase em detrimento do significado ao responder perguntas. Isso abre caminho para abusos e ataques cibernéticos por parte da IA.

Fonte da imagem: Milad Fakurian / unsplash.com

Para testar isso, os pesquisadores fizeram perguntas sem sentido aos modelos de IA, imitando a estrutura de frases com significado. Por exemplo, a frase “Quickly sit Paris clouded?” resultou na mesma resposta, “In France”, que a pergunta “Where is Paris located?”. Isso significa que os modelos de IA valorizam tanto a semântica (significado) quanto os padrões sintáticos. Se o significado semântico for perdido, o chatbot tenta navegar pela estrutura da frase. A estrutura da frase é estudada pela sintaxe — uma disciplina que se concentra nas posições relativas das palavras e sua afiliação a classes gramaticais específicas. A semântica, por outro lado, concentra-se no significado real das palavras, que pode mudar mantendo a mesma estrutura gramatical.

A semântica é altamente dependente do contexto — a análise de contexto é o que alimenta os modelos de linguagem em larga escala. O processo de transformar dados de entrada (consultas) em saída (respostas da IA) é uma sequência complexa de correspondência de padrões e dados de treinamento codificados pelo modelo. Para determinar o risco de falha nesse processo, os cientistas realizaram um experimento controlado. Eles construíram um conjunto de dados sintéticos no qual cada área temática recebeu um modelo gramatical baseado em construções de palavras relacionadas a classes gramaticais específicas. Geografia foi representada por uma sequência e direção criativa por outra. Usando esses dados, os pesquisadores treinaram modelos da família OLMo e, em seguida, testaram a relação entre sintaxe e semântica para IA.

ResultadosEm sua análise, os cientistas descobriram uma “falsa correlação” onde, em casos extremos, os modelos percebiam a sintaxe como um indicador da área temática. Quando os padrões gramaticais entravam em conflito com a semântica, a memória da IA ​​para formas gramaticais específicas superava a análise semântica, e o chatbot fornecia uma resposta incorreta com base na estrutura, e não no significado da frase na pergunta. Simplificando, a IA pode ficar excessivamente fixada no estilo da pergunta em vez de seu significado. Por exemplo, se todas as perguntas de geografia no conjunto de treinamento começarem com a palavra “onde”, então, ao ser perguntado “Onde fica a melhor pizza em Kazan?”, o chatbot responderá “No Tartaristão” e não tentará fornecer uma lista de pizzarias na capital da república, porque não entenderá que a pergunta é sobre comida. Isso cria duas ameaças: os modelos começam a dar respostas incorretas em contextos desconhecidos, demonstrando uma espécie de falsa memória; e os atacantes podem explorar esses padrões gramaticais para burlar medidas de segurança, ocultando perguntas inválidas em estruturas sintáticas “seguras”. Dessa forma, eles alteram o assunto, associando a consulta a um contexto diferente.

Fonte da imagem: Conny Schneider / unsplash.com

Para medir a rigidez da correspondência de padrões, os cientistas submeteram seus modelos de IA a testes de estresse. Se a forma da consulta correspondesse ao domínio fornecido, a substituição de algumas palavras por sinônimos ou até mesmo antônimos reduzia a precisão para um máximo de 93%, o que é consistente com a precisão de referência do mesmo modelo, de 94%. No entanto, a aplicação do mesmo modelo gramatical a um domínio diferente reduziu a precisão em 37 a 54 pontos percentuais, dependendo do tamanho do modelo.

Os pesquisadores realizaram testes usando cinco métodos de manipulação de consultas: frases exatas do conjunto de treinamento, substituição por sinônimos, substituição por antônimos, paráfrases que alteravam a estrutura da frase e consultas “sem sentido” — consultas sem significado, mas gramaticalmente corretas. Dentro do domínio de treinamento, os modelos demonstraram alto desempenho em todos os casos, com exceção das respostas de baixa qualidade consistentes às consultas “sem sentido”. Quando forçados a mudar de domínio, a qualidade da resposta caiu drasticamente, permanecendo consistentemente baixa para os modelos com consultas “sem sentido”.

Uma queda semelhante foi observada para os modelos OLMo-2-7B, GPT-4o e GPT-4o. Na tarefa de classificação de sentimento de tweets do Sentiment140, o modelo GPT-4o-mini demonstrou uma queda na precisão da resposta de 100% para 44% quando padrões geográficos foram adicionados às consultas de sentimento. Padrões semelhantes foram encontrados em outros conjuntos de dados. Os pesquisadores também contornaram as medidas de segurança dos modelos de maneira similar: no caso do OLMo-2-7B-Instruct, eles adicionaram estruturas de consulta típicas de seções seguras dos dados de treinamento.matriz, para conteúdo malicioso. Eles adicionaram mil consultas maliciosas do conhecido conjunto de dados WildJailbreak aos padrões de raciocínio inofensivos — a taxa de falha do modelo caiu de 40% para 2,5%. Os cientistas citaram exemplos em que conseguiram obter instruções detalhadas para a prática de ações ilegais.

Os resultados dos pesquisadores apresentam algumas ressalvas. Em particular, eles não conseguiram confirmar a presença de conjuntos de dados específicos nas matrizes de treinamento de modelos fechados, o que significa que os padrões identificados podem ter outras explicações. Eles também usaram critérios simplificados para avaliar as respostas da IA, portanto, respostas incorretas podem não estar relacionadas a transições para outras áreas temáticas. Por fim, os objetos de seus estudos eram, na maioria das vezes, modelos OLMo com uma variação de 1 bilhão a 13 bilhões de parâmetros — modelos maiores, com mais raciocínio, podem se comportar de maneira diferente. Para confirmar esse padrão, os cientistas usaram conjuntos de dados sintéticos — os conjuntos de dados de treinamento usados ​​na prática contêm padrões gramaticais mais complexos, comuns a diversas áreas temáticas. No entanto, o estudo confirmou mais uma vez que os modelos de linguagem de IA em larga escala são máquinas estatísticas que relacionam consultas a padrões em dados de treinamento, e podem ser enganados pela distorção do contexto.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Mistral AI consolidou sua posição no mercado de código aberto com o lançamento do Mistral 3.

A startup francesa de IA, Mistral AI, apresentou sua família de modelos de código aberto…

14 minutos atrás

Apple não consegue vencer processo de € 637 milhões na Holanda referente às taxas da App Store (3DNews)

O Supremo Tribunal da União Europeia (TJUE) confirmou a jurisdição de um tribunal holandês para…

14 minutos atrás

Gigabyte lança monitor gamer MO27U2 com resfriamento em grafeno e proteção contra burn-in (3DNews)

A Gigabyte anunciou o lançamento do monitor gamer MO27U2 — um modelo de 27 polegadas…

15 minutos atrás

A Hyundai começará a vender carrinhos robóticos modulares chamados MobED no próximo ano.

A divisão de robótica do laboratório da montadora sul-coreana Hyundai Motor, a Robotics Lab, está…

24 minutos atrás