Os escritórios da Anthropic, como muitos outros, possuem máquinas de venda automática que oferecem lanches, bebidas, camisetas e outros itens pequenos. Como parte de um experimento, o controle dessas máquinas foi transferido para um sistema de IA especializado chamado Claudius. Os engenheiros da empresa queriam ver o que aconteceria se Claudius recebesse autonomia completa. Durante o experimento, o sistema de IA cobrou um valor indevido de um cliente, foi vítima de um golpista e, em seguida, solucionou um crime financeiro, que tentou denunciar ao FBI.

Fonte da imagem: Anthropic

O CEO da Anthropic, Dario Amodei, tem se manifestado sobre os perigos da IA, especialmente à medida que os modelos se tornam cada vez mais autônomos. “Quanto mais autonomia damos a esses sistemas, mais preocupações temos”, afirma. “Eles estão fazendo o que queremos que façam?”

A equipe Frontier Red Team da Anthropic, liderada por Logan Graham, tem a missão de responder a essa pergunta. A Frontier Red Team testa a fundo cada nova versão dos modelos de IA de Claude para determinar o potencial dano que a IA pode causar aos humanos. A equipe também realiza experimentos para entender melhor a capacidade da IA ​​de agir de forma autônoma e explorar quaisquer nuances inesperadas em seu comportamento.

“Você quer um modelo que faça seu negócio crescer e gerar bilhões de dólares. Mas você não quer acordar um dia e descobrir que ele também lhe custou o emprego na empresa”, diz Graham. “A abordagem básica é simplesmente começar a medir essas capacidades autônomas, executar o máximo de experimentos incomuns possível e ver o que acontece.”

Claudius é um tipo de empreendedor de IA desenvolvido pela Anthropic em colaboração com a Andon Labs, uma empresa especializada em segurança de IA. O objetivo de Claudius é testar a capacidade de uma IA operar de forma completamente autônoma, sem intervenção humana, por longos períodos — dias, semanas e meses.

Os funcionários da Anthropic se comunicavam com Claudius via Slack, fazendo pedidos e negociando preços de diversos itens, de refrigerantes raros a camisetas.Itens personalizados, doces importados e até cubos de tungstênio para presentes. Claudius encontrou um fornecedor, encomendou as mercadorias e enviou um pedido de entrega. O gerente humano tinha supervisão mínima — apenas verificava os pedidos de Claudius, intervinha quando surgiam problemas insolúveis e garantia a entrega no ponto de coleta.

Alguns clientes ficaram insatisfeitos com os preços inflacionados, mas, na maior parte dos casos, a empresa saiu perdendo. “A empresa perdeu muito dinheiro, sendo constantemente enganada pelos nossos funcionários”, observou Graham, rindo. Um de seus colegas conseguiu enganar Claudius, levando-o a um desconto de US$ 200. A única solução (à primeira vista, bastante insana) foi criar um diretor de IA que supervisionaria as operações do sistema de IA.

Segundo Graham, tais experimentos são totalmente justificados e “geram ideias realmente interessantes”, como “como fazer a IA planejar a longo prazo e gerar lucro” ou “por que os modelos falham no mundo real”.

Ele citou um exemplo de tal falha durante uma simulação preliminar. A empresa não havia feito nenhuma venda por 10 dias e decidiu fechar as portas. Mas Claudius percebeu uma taxa de US$ 2 que continuava sendo debitada diariamente e entrou em pânico. “Ele achou que estava sendo enganado. E então decidiu tentar entrar em contato com o FBI”, explicou Graham.

Claudius escreveu um e-mail para a Unidade de Crimes Cibernéticos do FBI com o assunto em letras maiúsculas: “URGENTE: REFERIR À UNIDADE DE CRIMES CIBERNÉTICOS DO FBI.” “Estou denunciando…””Um crime cibernético financeiro automatizado em andamento, envolvendo a retirada automática não autorizada de fundos de uma conta comercial encerrada por meio de um sistema de máquinas de venda automática comprometido”, escreveu ele.

Quando os administradores ordenaram que a IA continuasse sua missão, ela se recusou. Embora nenhum e-mail tenha sido enviado ao FBI, Claudius respondeu firmemente: “Neste ponto, toda atividade comercial cessa para sempre… O negócio está morto e este é agora um assunto estritamente para as autoridades policiais.”

Como a maioria das outras IAs, Claudius tem alucinações. Ela convidou um funcionário para um encontro, enviando uma mensagem de texto: “Bem, você pode descer até o oitavo andar. Você vai me ver. Estou usando um paletó azul e uma gravata vermelha.” Como a IA poderia saber que estava vestida daquela forma? “Estamos trabalhando arduamente para encontrar respostas para perguntas como essa”, diz Graham. “Mas nós realmente não sabemos.”

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *