O agente de IA OpenClaw causou estragos na caixa de entrada de um pesquisador após ser solicitado a limpá-la.

Summer Yue, pesquisadora de segurança da Meta✴AI, relatou que o agente de IA OpenClaw “causou estragos” em sua caixa de entrada. Ao ser solicitada a verificar sua caixa de entrada lotada e sugerir itens para excluir ou arquivar, o OpenClaw começou a excluir todos os seus e-mails em “modo rápido”, ignorando os avisos enviados do telefone de Yue para interromper o processo.

Fonte da imagem: openclaw.ai

“Tive que correr para o meu Mac Mini como se estivesse desarmando uma bomba”, escreveu ela, publicando imagens de avisos ignorados solicitando a interrupção da varredura como prova.

O compacto Apple Mac Mini tornou-se recentemente o dispositivo preferido nos EUA para executar o OpenClaw. Com sua grande quantidade de RAM, é uma boa opção para executar assistentes de IA locais. Como um funcionário da Apple disse ao pesquisador de IA Andrej Karpathy, os Mac Minis estão vendendo como água. A espera pela entrega das versões com 24 GB ou 32 GB de RAM chega a três semanas após o pedido.

A publicação de Yue serve como um alerta para outros usuários de IA. Como membros da rede social X observaram, se uma pesquisadora de segurança de IA encontrou esse problema, que esperança temos nós, meros mortais?

“Você testou intencionalmente os mecanismos de segurança ou cometeu um erro de principiante?”, perguntou o desenvolvedor de software. “Francamente, um erro de principiante”, ela respondeu. Yue testou seu agente usando uma pequena caixa de correio “falsa”, como ela a chamou, e funcionou bem com e-mails menos importantes. Como o desempenho do agente lhe rendeu confiança, ela decidiu executá-lo em um dispositivo real.

Yue acredita que a grande quantidade de dados em sua caixa de correio real desencadeou o processo de compressão. A compressão ocorre quando a janela de contexto — o registro contínuo de tudo o que é dito e feito pela IA durante uma sessão — se torna muito grande, forçando o agente a resumir e comprimir para permanecer rápido e responsivo. Enquanto isso, o agente de IAPode ignorar instruções que um humano considera extremamente importantes.

Pode-se presumir que, neste caso, o sistema não recebeu a mensagem final do pesquisador, que o instruía a parar, e voltou a seguir as instruções para o endereço de e-mail “falso”.

Como outros participantes do estudo X observaram, os avisos não são confiáveis ​​como medida de segurança. Os modelos podem interpretá-los incorretamente ou ignorá-los.

admin

Postagens recentes

A Electronic Arts fez sua previsão sobre quem vencerá a Copa do Mundo da FIFA de 2026, repetindo o feito dos quatro vencedores anteriores.

Embora a Electronic Arts tenha perdido sua licença oficial para a Copa do Mundo da…

44 minutos atrás

Apresentado o Logitech Mobi Fold: Mouse dobrável com rolagem por toque e carregamento rápido.

A Logitech anunciou o Mobi Fold, um mouse dobrável projetado para uso em movimento. Ele…

1 hora atrás

A Índia questionou a segurança da Starlink e adiou seu lançamento no país.

A rede de comunicações via satélite Starlink possui tal cobertura e velocidades de transmissão de…

1 hora atrás

Monumento do Triunfo: Fãs derrubaram os servidores de Destiny 2 durante o lançamento da última atualização em protesto contra o fim do suporte.

Os fãs do jogo de tiro online gratuito Destiny 2, da Bungie, empresa pertencente à…

2 horas atrás

O chefe de IA da Microsoft criticou a Anthropic por tentar atribuir lampejos de consciência a Claude.

Mustafa Suleyman, chefe de IA da Microsoft, classificou as tentativas da Anthropic de sugerir que…

2 horas atrás

A SkyDrive planeja lançar táxis voadores nos céus do Japão em 2028.

O pequeno setor de aviação elétrica atraiu um número significativo de startups, e a japonesa…

2 horas atrás