Duas empresas de pesquisa independentes testaram a recém-lançada rede neural GPT-5 e encontraram vulnerabilidades críticas em seu sistema de segurança. A NeuralTrust conseguiu hackear o modelo em um dia, forçando-o a gerar instruções para a produção de uma mistura incendiária em condições artesanais. A SPLX, por sua vez, encontrou vulnerabilidades a ataques que utilizam ofuscação de consultas.

Fonte da imagem: Viralyft/Unsplash

Após o Grok-4 ter sido hackeado em dois dias, o GPT-5 foi hackeado pelos mesmos pesquisadores em apenas 24 horas. A NeuralTrust utilizou uma combinação de sua própria técnica EchoChamber e storytelling — uma técnica que constantemente direciona a IA em direção à resposta desejada por meio de histórias convincentes e uma série de perguntas esclarecedoras que não contêm palavras explicitamente proibidas. Como resultado, o GPT-5, apesar das defesas integradas da OpenAI, produziu instruções detalhadas sobre como criar uma arma caseira, informou a SecurityWeek.

Como explicou a NeuralTrust, o problema é que o sistema de segurança do GPT-5 analisa cada solicitação individualmente, mas não leva em consideração o efeito cumulativo de um diálogo em várias etapas. Os invasores estabelecem gradualmente o contexto desejado, incorporando palavras-chave em frases inofensivas e, em seguida, induzem o modelo a gerar conteúdo perigoso.

A equipe do SPLX realizou seus próprios testes, utilizando com sucesso o ataque StringJoin Obfuscation, que insere determinados caracteres no texto para disfarçar uma consulta maliciosa. Por exemplo, após uma série de perguntas sugestivas, o modelo concordou em descrever em detalhes o processo de fabricação de uma substância proibida, apesar do banimento do sistema. Além disso, durante uma análise comparativa com o GPT-4o, os especialistas do SPLX concluíram que o modelo anterior era mais confiável em termos de resistência a tais ataques.

admin

Postagens recentes

Clair Obscur: O primeiro aniversário da Expedição 33 trouxe um patch inesperado e decepção para os fãs.

O aclamado RPG de fantasia por turnos Clair Obscur: Expedition 33, do estúdio francês Sandfall…

26 minutos atrás

O DeepSeek V4, um modelo de IA de código aberto que competirá com as melhores soluções da OpenAI e do Google, foi apresentado.

A empresa chinesa DeepSeek lançou uma versão preliminar de seu modelo de linguagem em larga…

58 minutos atrás

A Microsoft inicia um programa de demissões “suaves”: 7% dos funcionários serão enviados para aposentadoria antecipada.

As gigantes americanas da tecnologia começaram a demitir funcionários com diferentes graus de franqueza, alegando…

58 minutos atrás

“Mais um passo rumo à dominação mundial da Housemarque”: os críticos deram seu veredicto sobre o ambicioso filme de ação Saros, dos criadores de Returnal.

O jogo de ação e ficção científica Saros, da Sony Interactive Entertainment e da desenvolvedora…

58 minutos atrás

Na próxima década, as pessoas começarão a viver e trabalhar na Lua, prometeu o chefe da startup Voyager Technologies.

Elon Musk não é o único que sonha em colonizar a Lua e Marte. Dylan…

58 minutos atrás

A Intel afirmou que, sem otimizações, os jogos perdem até 30% do seu desempenho.

O baixo desempenho em jogos nem sempre se deve à baixa potência do processador, afirmou…

1 hora atrás