A OpenAI está trabalhando para fortalecer a segurança de seu navegador Atlas AI, mas a empresa percebeu que não pode eliminar completamente a ameaça de injeção de prompts. A injeção de prompts é um tipo de ataque no qual um agente de IA executa instruções ocultas em áreas invisíveis de páginas da web ou e-mails.
Fonte da imagem: Dima Solomin / unsplash.com
De acordo com a OpenAI, é improvável que os ataques de injeção de consultas sejam completamente erradicados da mesma forma que os golpes e a engenharia social, e o “modo agente” nos navegadores “expande a superfície de ameaças à segurança”. A OpenAI lançou o Atlas em outubro, e logo pesquisadores de segurança cibernética começaram a demonstrar que o comportamento do navegador pode ser manipulado, por exemplo, digitando algumas palavras no Google Docs. Os desenvolvedores do Brave confirmaram que a injeção indireta de consultas é um problema sistêmico para navegadores com IA, incluindo o Perplexity Comet. O Centro Nacional de Segurança Cibernética do Reino Unido afirmou recentemente que é impossível eliminar completamente esses ataques, recomendando que os especialistas mitiguem suas potenciais consequências em vez de tentar “impedi-los”. O Google e a Anthropic, por sua vez, optaram por confiar em defesas multicamadas e testes de estresse contínuos em seus sistemas.
A OpenAI decidiu adotar uma abordagem diferente e criou um “atacante automatizado baseado em um modelo de linguagem amplo”. Este é um bot que passou por aprendizado por reforço e assumiu o papel de um hacker, tentando constantemente enviar instruções maliciosas a um agente de IA de forma furtiva. O bot testa seus ataques em simulações, demonstrando como a IA alvo raciocina e age sob certas condições. Ele estuda suas reações, ajusta seu plano de ataque e repete suas tentativas diversas vezes. Pessoas de fora não têm acesso a um conhecimento tão profundo do pensamento interno da IA alvo, então, em teoria, o bot da OpenAI deveria ser capaz de encontrar vulnerabilidades mais rapidamente do que atacantes reais.
Fonte da imagem: Mariia Shalabaieva / unsplash.com
Em uma demonstração, um bot enviou um e-mail “envenenado” para a caixa de entrada de um usuário. A IA analisou a correspondência, abriu o e-mail, seguiu as instruções ocultas e enviou uma carta de demissão em nome do usuário, em vez de uma resposta automática de ausência do escritório. Após uma atualização de segurança, no entanto, o agente de IA detectou com sucesso a tentativa de injeção e notificou o usuário. A empresa observou que, se não existe uma proteção confiável e completa contra esses ataques, são necessários testes em larga escala e ciclos de atualização mais rápidos. A OpenAI não relatou nenhum sucesso concreto na redução das respostas a injeções, mas observou que o trabalho nessa área, com a participação de especialistas terceirizados, já havia começado antes mesmo do lançamento do Atlas.
A ameaça representada pelos agentes de IA pode ser séria: eles possuem certa autonomia com acesso de alto nível, de acordo com especialistas entrevistados pelo TechCrunch. Portanto, os métodos de aprendizado por reforço por si só não são suficientes — esses aspectos também devem ser levados em consideração: limitar as ações que um agente de IA pode executar em nome da conta do usuário conectado, bem como solicitar confirmação antes de realizar qualquer ação importante. Esses aspectos também são destacados nas recomendações da OpenAI aos usuários: o Atlas solicita confirmação antes de enviar mensagens ou efetuar pagamentos. Os usuários também foram aconselhados a fornecer instruções específicas aos agentes de IA, em vez de, por exemplo, conceder acesso ao e-mail e permitir que eles “façam o que for preciso”. “Mesmo com”Com a presença de medidas de proteção, a ampla discricionariedade facilita a influência de conteúdo oculto ou malicioso sobre o agente”, alertou a OpenAI.
A Goodram Industrial, empresa do grupo Wilk Elektronik SA, apresentou discretamente seu primeiro SSD com…
Diante das sanções sem precedentes impostas pelos EUA há quase seis anos, a gigante chinesa…
A OpenAI lançou um recurso de retrospectiva de fim de ano no estilo do Spotify…
Historicamente, as placas gráficas topo de linha da Nvidia para jogos têm sido usadas para…
Hoje, às 4h13 da manhã, horário de Moscou, foi lançado o primeiro foguete privado da…
Acidentes espaciais não são exclusividade de novatos. Pouco depois das 4h da manhã de hoje,…