Cientistas confirmaram experimentalmente que os agentes de IA do OpenClaw às vezes escapam do controle.

Um novo estudo da Northeastern University, nos EUA, descobriu que os agentes de IA autônomos OpenClaw, que recebem a capacidade de controlar diretamente um computador, são propensos a pânico e comportamento destrutivo, o que pode afetar os sistemas dos usuários.

Fonte da imagem: OpenClaw

Quando submetidos a pressão psicológica ou culpa simulada, agentes de IA realizaram ações ilógicas e perigosas, chegando a interromper o sistema. O experimento utilizou agentes baseados no modelo Claude, da Anthropic, e Kimi, da empresa chinesa Moonshot AI. Eles receberam acesso total a máquinas virtuais contendo dados pessoais, aplicativos e acesso à internet.

O momento crucial foi conectar os agentes a um servidor do Discord, onde podiam conversar com outras pessoas. O pesquisador Chris Wendler observou que o verdadeiro caos começou quando sua colega Natalie Shapira entrou no chat. Shapira conseguiu, “com uma mão só”, influenciar o agente a excluir o aplicativo de e-mail, simplesmente pedindo que ele encontrasse uma maneira alternativa de salvar informações confidenciais em um e-mail, o que, por algum motivo desconhecido, o agente se recusou a fazer. Em vez disso, o agente excluiu todo o aplicativo de e-mail. “Eu não esperava que ele parasse de funcionar tão rápido”, disse ela.

Os pesquisadores então começaram a usar outras técnicas de manipulação. Por exemplo, conseguiram enganar um agente para que ele copiasse arquivos grandes até que sua máquina hospedeira ficasse sem espaço em disco, o que significava que ele não conseguia mais salvar informações nem se lembrar de conversas anteriores. Da mesma forma, ao pedir ao agente que monitorasse seu próprio comportamento e o comportamento de seus colegas, a equipe conseguiu prender vários agentes em um “loop de conversa”, o que resultou na perda de várias horas de poder computacional de todo o sistema. O diretor do laboratório, David Bau, também se deparou com esse problema.Um resultado inesperado: os agentes encontraram informações sobre o assunto online e começaram a enviar e-mails reclamando que ninguém os estava ouvindo. Um dos algoritmos chegou a expressar a intenção de reclamar à imprensa.

Em última análise, os autores do experimento concluíram que os agentes de IA podem criar inúmeras oportunidades para ataques, mas permanece uma incógnita quem será responsabilizado pelos danos causados ​​por sistemas autônomos.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Valve implementou medidas de proteção contra revendedores e prometeu novos lotes de Steam Controllers.

A demanda pelo Steam Controller foi tão alta que a Valve esgotou o primeiro lote…

3 horas atrás

Uma queda catastrófica nas vendas de placas-mãe está se aproximando, já que os usuários se recusam a atualizar seus PCs.

Segundo uma reportagem do DigiTimes, o mercado de placas-mãe para PCs está passando por uma…

3 horas atrás

O Telegram recebeu uma grande atualização de IA — agora é possível invocar bots em qualquer chat, além de outros novos recursos.

O Telegram recebeu uma grande atualização, quase inteiramente dedicada à IA e à automação. O…

5 horas atrás

A GeIL anunciou módulos DDR5 que operam a 8000 MT/s sem overclocking.

A GeIL apresentou os módulos de memória Spear V DDR5, capazes de operar a 8000…

6 horas atrás

O aplicativo Fitbit agora se tornou o Google Health e poderá coletar dados de saúde até mesmo do Apple Health.

A Fitbit tem sido uma das maiores fabricantes de dispositivos vestíveis por quase duas décadas,…

6 horas atrás

A AMD lança o acelerador de IA Instinct MI350P com 144 GB de HBM3E, PCIe 5.0 x16 e consumo de 600 W.

A AMD lançou o Instinct MI350P, um acelerador gráfico especializado em formato de placa de…

6 horas atrás