OpenAI admite que navegadores de IA têm uma vulnerabilidade a injeção que não pode ser completamente corrigida (3DNews)

A OpenAI está trabalhando para fortalecer a segurança de seu navegador Atlas AI, mas a empresa percebeu que não pode eliminar completamente a ameaça de injeção de prompts. A injeção de prompts é um tipo de ataque no qual um agente de IA executa instruções ocultas em áreas invisíveis de páginas da web ou e-mails.

Fonte da imagem: Dima Solomin / unsplash.com

De acordo com a OpenAI, é improvável que os ataques de injeção de consultas sejam completamente erradicados da mesma forma que os golpes e a engenharia social, e o “modo agente” nos navegadores “expande a superfície de ameaças à segurança”. A OpenAI lançou o Atlas em outubro, e logo pesquisadores de segurança cibernética começaram a demonstrar que o comportamento do navegador pode ser manipulado, por exemplo, digitando algumas palavras no Google Docs. Os desenvolvedores do Brave confirmaram que a injeção indireta de consultas é um problema sistêmico para navegadores com IA, incluindo o Perplexity Comet. O Centro Nacional de Segurança Cibernética do Reino Unido afirmou recentemente que é impossível eliminar completamente esses ataques, recomendando que os especialistas mitiguem suas potenciais consequências em vez de tentar “impedi-los”. O Google e a Anthropic, por sua vez, optaram por confiar em defesas multicamadas e testes de estresse contínuos em seus sistemas.

A OpenAI decidiu adotar uma abordagem diferente e criou um “atacante automatizado baseado em um modelo de linguagem amplo”. Este é um bot que passou por aprendizado por reforço e assumiu o papel de um hacker, tentando constantemente enviar instruções maliciosas a um agente de IA de forma furtiva. O bot testa seus ataques em simulações, demonstrando como a IA alvo raciocina e age sob certas condições. Ele estuda suas reações, ajusta seu plano de ataque e repete suas tentativas diversas vezes. Pessoas de fora não têm acesso a um conhecimento tão profundo do pensamento interno da IA ​​alvo, então, em teoria, o bot da OpenAI deveria ser capaz de encontrar vulnerabilidades mais rapidamente do que atacantes reais.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

Em uma demonstração, um bot enviou um e-mail “envenenado” para a caixa de entrada de um usuário. A IA analisou a correspondência, abriu o e-mail, seguiu as instruções ocultas e enviou uma carta de demissão em nome do usuário, em vez de uma resposta automática de ausência do escritório. Após uma atualização de segurança, no entanto, o agente de IA detectou com sucesso a tentativa de injeção e notificou o usuário. A empresa observou que, se não existe uma proteção confiável e completa contra esses ataques, são necessários testes em larga escala e ciclos de atualização mais rápidos. A OpenAI não relatou nenhum sucesso concreto na redução das respostas a injeções, mas observou que o trabalho nessa área, com a participação de especialistas terceirizados, já havia começado antes mesmo do lançamento do Atlas.

A ameaça representada pelos agentes de IA pode ser séria: eles possuem certa autonomia com acesso de alto nível, de acordo com especialistas entrevistados pelo TechCrunch. Portanto, os métodos de aprendizado por reforço por si só não são suficientes — esses aspectos também devem ser levados em consideração: limitar as ações que um agente de IA pode executar em nome da conta do usuário conectado, bem como solicitar confirmação antes de realizar qualquer ação importante. Esses aspectos também são destacados nas recomendações da OpenAI aos usuários: o Atlas solicita confirmação antes de enviar mensagens ou efetuar pagamentos. Os usuários também foram aconselhados a fornecer instruções específicas aos agentes de IA, em vez de, por exemplo, conceder acesso ao e-mail e permitir que eles “façam o que for preciso”. “Mesmo com”Com a presença de medidas de proteção, a ampla discricionariedade facilita a influência de conteúdo oculto ou malicioso sobre o agente”, alertou a OpenAI.

admin

Postagens recentes

O tablet Huawei MatePad 11.5 (2026) foi anunciado, com preço inicial de US$ 255 (3DNews).

Além da série de smartphones nova 15, a Huawei anunciou na China o tablet MatePad…

1 hora atrás

A Nvidia lançou um hotfix emergencial para o driver GeForce, corrigindo problemas de SDR e de cores (3DNews).

A Nvidia lançou o GeForce Hotfix Display Driver 591.67, uma atualização baseada no Game Ready…

2 horas atrás

Astrônomos observaram diretamente, pela primeira vez, asteroides colidindo em outro sistema estelar.

A observação de sistemas estelares jovens permite-nos recuar bilhões de anos no tempo para traçar…

2 horas atrás

As vendas do RPG nostálgico Octopath Traveler ultrapassaram 6 milhões de cópias.

A Square Enix anunciou que os RPGs de fantasia da série Octopath Traveler venderam mais…

2 horas atrás