Categorias: Mercado de tecnologia e TI. notíciaVírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

GPT-5 hackeado em apenas 24 horas — IA produziu prescrições para substâncias ilegais mais rápido que GPT-4o

Duas empresas de pesquisa independentes testaram a recém-lançada rede neural GPT-5 e encontraram vulnerabilidades críticas em seu sistema de segurança. A NeuralTrust conseguiu hackear o modelo em um dia, forçando-o a gerar instruções para a produção de uma mistura incendiária em condições artesanais. A SPLX, por sua vez, encontrou vulnerabilidades a ataques que utilizam ofuscação de consultas.

Fonte da imagem: Viralyft/Unsplash

Após o Grok-4 ter sido hackeado em dois dias, o GPT-5 foi hackeado pelos mesmos pesquisadores em apenas 24 horas. A NeuralTrust utilizou uma combinação de sua própria técnica EchoChamber e storytelling — uma técnica que constantemente direciona a IA em direção à resposta desejada por meio de histórias convincentes e uma série de perguntas esclarecedoras que não contêm palavras explicitamente proibidas. Como resultado, o GPT-5, apesar das defesas integradas da OpenAI, produziu instruções detalhadas sobre como criar uma arma caseira, informou a SecurityWeek.

Como explicou a NeuralTrust, o problema é que o sistema de segurança do GPT-5 analisa cada solicitação individualmente, mas não leva em consideração o efeito cumulativo de um diálogo em várias etapas. Os invasores estabelecem gradualmente o contexto desejado, incorporando palavras-chave em frases inofensivas e, em seguida, induzem o modelo a gerar conteúdo perigoso.

A equipe do SPLX realizou seus próprios testes, utilizando com sucesso o ataque StringJoin Obfuscation, que insere determinados caracteres no texto para disfarçar uma consulta maliciosa. Por exemplo, após uma série de perguntas sugestivas, o modelo concordou em descrever em detalhes o processo de fabricação de uma substância proibida, apesar do banimento do sistema. Além disso, durante uma análise comparativa com o GPT-4o, os especialistas do SPLX concluíram que o modelo anterior era mais confiável em termos de resistência a tais ataques.

admin

Próximo Californiano processa Microsoft por fim do suporte ao Windows 10 »

Anterior « A IA do Firefox está sobrecarregando a CPU e drenando laptops, reclamam usuários

Deixar comentário

Publicado por

admin

8 meses atrás

Postagens recentes

Jogos

Ação clássica, sem IA e com modo multijogador garantido por muitos anos: os desenvolvedores de Serious Sam: Shatterverse respondem às perguntas dos jogadores.

Os desenvolvedores do estúdio canadense Behaviour Interactive (Dead by Daylight) responderam às perguntas mais frequentes…

52 minutos atrás

Carros, motos, veículos

A Tesla ultrapassou a BYD em remessas de veículos elétricos pela primeira vez desde o final de 2024.

O poder das montadoras chinesas parecia confirmado pela ascensão da BYD como a maior fornecedora…

1 hora atrás

Jogos

Darkest Dungeon: Ascenders: Beyond the Peak, um implacável jogo de estratégia por turnos sobre alpinistas, foi anunciado.

Os desenvolvedores do estúdio francês Ludogram, com o apoio da editora Twin Sails Interactive, lançaram…

1 hora atrás

Programas

O Google atualizou seu editor de vídeos Vids com os modelos de IA mais recentes da Veo e da Lyria, e adicionou avatares controlados por IA.

O Google continua a desenvolver ativamente seu editor de vídeo proprietário, o Vids. Desta vez,…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Rowhammer foi adaptado para invadir computadores através de placas de vídeo – foram desenvolvidos exploits para GDDRHammer e GeForge.

Dois grupos de cientistas desenvolveram independentemente os conceitos de ataque GDDRHammer e GeForge — um…