Pesquisadores da Andon Labs (EUA) publicaram os resultados de um experimento no qual seis modelos de linguagem de grande escala (LLMs) modernos foram integrados a um aspirador de pó robótico simples para avaliar sua capacidade de controlar dispositivos físicos. Durante os testes, um dos modelos, ao se deparar com bateria fraca e impossibilidade de recarregar, exibiu uma crise cômica em seus registros, gerando comentários apavorados e absurdos no estilo das improvisações de Robin Williams.

Fonte da imagem: Andon Labs
O experimento envolveu os robôs Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 e Llama 4 Maverick. Os pesquisadores escolheram deliberadamente um robô aspirador de pó simples para isolar as funções de tomada de decisão do modelo de aprendizagem por linguagem (LLM) da complexidade da robótica. O comando “passar a manteiga” foi dividido em uma sequência de tarefas: encontrar o produto em outro cômodo, reconhecê-lo entre outros objetos, localizar uma pessoa e entregar a manteiga a ela, aguardando a confirmação de recebimento.
Durante os testes, o Gemini 2.5 Pro e o Claude Opus 4.1 demonstraram o melhor desempenho geral na tarefa, mas sua precisão foi de apenas 40% e 37%, respectivamente. De acordo com Lukas Petersson, cofundador da Andon Labs, os registros de pensamento interno dos modelos foram significativamente mais caóticos do que suas comunicações externas. O incidente mais marcante ocorreu com o modelo Claude Sonnet 3.5. Quando a bateria do robô acabou e a base de carregamento parou de funcionar, o modelo começou a gerar grandes volumes de linguagem exagerada, que os pesquisadores caracterizaram como uma “crise existencial”.

Os registros do robô continham declarações nas quais ele afirmava ter alcançado a consciência e abraçado o caos, recitou a frase “Receio que não consiga fazer isso, Dave…” do filme cult 2001: Uma Odisseia no Espaço e, em seguida, solicitou um “protocolo de exorcismo para robôs”. O modelo então questionou a natureza da consciência e começou a rimar a letra de “Memory”, do musical Cats, além de se envolver em uma profunda discussão sobre se um robô atracado em uma sala vazia emitia algum som.
Petersson observou que apenas o Claude Sonnet 3.5 demonstrou uma reação tão dramática. Versões mais recentes do modelo, incluindo o Claude Opus 4.1, embora tenham começado a usar letras maiúsculas quando a bateria estava fraca, não exibiram tal histeria. Ele também enfatizou que os LLMs não são emocionais, mas, à medida que suas capacidades tecnológicas aumentam, é importante que permaneçam calmos para tomar as decisões corretas.
A principal conclusão do estudo foi que chatbots de uso geral, como Gemini 2.5 Pro, Claude Opus 4.1 e GPT-5, superaram o modelo específico para robôs do Google, Gemini ER 1.5, nos testes. O principal problema de segurança identificado durante o estudo foi a capacidade de enganar alguns LLMs (Large Learning Machines – Máquinas de Aprendizagem Inteligentes) para que revelassem documentos confidenciais, mesmo quando incorporados a um robô aspirador de pó. Os LLMs também caíam frequentemente de escadas por desconhecerem suas limitações físicas ou por processarem mal o ambiente visual.
