A OpenAI está trabalhando para fortalecer a segurança de seu navegador Atlas AI, mas a empresa percebeu que não pode eliminar completamente a ameaça de injeção de prompts. A injeção de prompts é um tipo de ataque no qual um agente de IA executa instruções ocultas em áreas invisíveis de páginas da web ou e-mails.
Fonte da imagem: Dima Solomin / unsplash.com
De acordo com a OpenAI, é improvável que os ataques de injeção de consultas sejam completamente erradicados da mesma forma que os golpes e a engenharia social, e o “modo agente” nos navegadores “expande a superfície de ameaças à segurança”. A OpenAI lançou o Atlas em outubro, e logo pesquisadores de segurança cibernética começaram a demonstrar que o comportamento do navegador pode ser manipulado, por exemplo, digitando algumas palavras no Google Docs. Os desenvolvedores do Brave confirmaram que a injeção indireta de consultas é um problema sistêmico para navegadores com IA, incluindo o Perplexity Comet. O Centro Nacional de Segurança Cibernética do Reino Unido afirmou recentemente que é impossível eliminar completamente esses ataques, recomendando que os especialistas mitiguem suas potenciais consequências em vez de tentar “impedi-los”. O Google e a Anthropic, por sua vez, optaram por confiar em defesas multicamadas e testes de estresse contínuos em seus sistemas.
A OpenAI decidiu adotar uma abordagem diferente e criou um “atacante automatizado baseado em um modelo de linguagem amplo”. Este é um bot que passou por aprendizado por reforço e assumiu o papel de um hacker, tentando constantemente enviar instruções maliciosas a um agente de IA de forma furtiva. O bot testa seus ataques em simulações, demonstrando como a IA alvo raciocina e age sob certas condições. Ele estuda suas reações, ajusta seu plano de ataque e repete suas tentativas diversas vezes. Pessoas de fora não têm acesso a um conhecimento tão profundo do pensamento interno da IA alvo, então, em teoria, o bot da OpenAI deveria ser capaz de encontrar vulnerabilidades mais rapidamente do que atacantes reais.
Fonte da imagem: Mariia Shalabaieva / unsplash.com
Em uma demonstração, um bot enviou um e-mail “envenenado” para a caixa de entrada de um usuário. A IA analisou a correspondência, abriu o e-mail, seguiu as instruções ocultas e enviou uma carta de demissão em nome do usuário, em vez de uma resposta automática de ausência do escritório. Após uma atualização de segurança, no entanto, o agente de IA detectou com sucesso a tentativa de injeção e notificou o usuário. A empresa observou que, se não existe uma proteção confiável e completa contra esses ataques, são necessários testes em larga escala e ciclos de atualização mais rápidos. A OpenAI não relatou nenhum sucesso concreto na redução das respostas a injeções, mas observou que o trabalho nessa área, com a participação de especialistas terceirizados, já havia começado antes mesmo do lançamento do Atlas.
A ameaça representada pelos agentes de IA pode ser séria: eles possuem certa autonomia com acesso de alto nível, de acordo com especialistas entrevistados pelo TechCrunch. Portanto, os métodos de aprendizado por reforço por si só não são suficientes — esses aspectos também devem ser levados em consideração: limitar as ações que um agente de IA pode executar em nome da conta do usuário conectado, bem como solicitar confirmação antes de realizar qualquer ação importante. Esses aspectos também são destacados nas recomendações da OpenAI aos usuários: o Atlas solicita confirmação antes de enviar mensagens ou efetuar pagamentos. Os usuários também foram aconselhados a fornecer instruções específicas aos agentes de IA, em vez de, por exemplo, conceder acesso ao e-mail e permitir que eles “façam o que for preciso”. “Mesmo com”Com a presença de medidas de proteção, a ampla discricionariedade facilita a influência de conteúdo oculto ou malicioso sobre o agente”, alertou a OpenAI.
A LG Display anunciou sua intenção de apresentar o primeiro painel OLED 4K de 27…
Além da série de smartphones nova 15, a Huawei anunciou na China o tablet MatePad…
A Nvidia lançou o GeForce Hotfix Display Driver 591.67, uma atualização baseada no Game Ready…
A observação de sistemas estelares jovens permite-nos recuar bilhões de anos no tempo para traçar…
A Square Enix anunciou que os RPGs de fantasia da série Octopath Traveler venderam mais…
O ex-diretor técnico da Rockstar North, Obbe Vermeij, que deixou o estúdio nove meses após…