Os escritórios da Anthropic, como muitos outros, possuem máquinas de venda automática que oferecem lanches, bebidas, camisetas e outros itens pequenos. Como parte de um experimento, o controle dessas máquinas foi transferido para um sistema de IA especializado chamado Claudius. Os engenheiros da empresa queriam ver o que aconteceria se Claudius recebesse autonomia completa. Durante o experimento, o sistema de IA cobrou um valor indevido de um cliente, foi vítima de um golpista e, em seguida, solucionou um crime financeiro, que tentou denunciar ao FBI.
Fonte da imagem: Anthropic
O CEO da Anthropic, Dario Amodei, tem se manifestado sobre os perigos da IA, especialmente à medida que os modelos se tornam cada vez mais autônomos. “Quanto mais autonomia damos a esses sistemas, mais preocupações temos”, afirma. “Eles estão fazendo o que queremos que façam?”
A equipe Frontier Red Team da Anthropic, liderada por Logan Graham, tem a missão de responder a essa pergunta. A Frontier Red Team testa a fundo cada nova versão dos modelos de IA de Claude para determinar o potencial dano que a IA pode causar aos humanos. A equipe também realiza experimentos para entender melhor a capacidade da IA de agir de forma autônoma e explorar quaisquer nuances inesperadas em seu comportamento.
“Você quer um modelo que faça seu negócio crescer e gerar bilhões de dólares. Mas você não quer acordar um dia e descobrir que ele também lhe custou o emprego na empresa”, diz Graham. “A abordagem básica é simplesmente começar a medir essas capacidades autônomas, executar o máximo de experimentos incomuns possível e ver o que acontece.”
Claudius é um tipo de empreendedor de IA desenvolvido pela Anthropic em colaboração com a Andon Labs, uma empresa especializada em segurança de IA. O objetivo de Claudius é testar a capacidade de uma IA operar de forma completamente autônoma, sem intervenção humana, por longos períodos — dias, semanas e meses.
Os funcionários da Anthropic se comunicavam com Claudius via Slack, fazendo pedidos e negociando preços de diversos itens, de refrigerantes raros a camisetas.Itens personalizados, doces importados e até cubos de tungstênio para presentes. Claudius encontrou um fornecedor, encomendou as mercadorias e enviou um pedido de entrega. O gerente humano tinha supervisão mínima — apenas verificava os pedidos de Claudius, intervinha quando surgiam problemas insolúveis e garantia a entrega no ponto de coleta.
Alguns clientes ficaram insatisfeitos com os preços inflacionados, mas, na maior parte dos casos, a empresa saiu perdendo. “A empresa perdeu muito dinheiro, sendo constantemente enganada pelos nossos funcionários”, observou Graham, rindo. Um de seus colegas conseguiu enganar Claudius, levando-o a um desconto de US$ 200. A única solução (à primeira vista, bastante insana) foi criar um diretor de IA que supervisionaria as operações do sistema de IA.
Segundo Graham, tais experimentos são totalmente justificados e “geram ideias realmente interessantes”, como “como fazer a IA planejar a longo prazo e gerar lucro” ou “por que os modelos falham no mundo real”.
Ele citou um exemplo de tal falha durante uma simulação preliminar. A empresa não havia feito nenhuma venda por 10 dias e decidiu fechar as portas. Mas Claudius percebeu uma taxa de US$ 2 que continuava sendo debitada diariamente e entrou em pânico. “Ele achou que estava sendo enganado. E então decidiu tentar entrar em contato com o FBI”, explicou Graham.
Claudius escreveu um e-mail para a Unidade de Crimes Cibernéticos do FBI com o assunto em letras maiúsculas: “URGENTE: REFERIR À UNIDADE DE CRIMES CIBERNÉTICOS DO FBI.” “Estou denunciando…””Um crime cibernético financeiro automatizado em andamento, envolvendo a retirada automática não autorizada de fundos de uma conta comercial encerrada por meio de um sistema de máquinas de venda automática comprometido”, escreveu ele.
Quando os administradores ordenaram que a IA continuasse sua missão, ela se recusou. Embora nenhum e-mail tenha sido enviado ao FBI, Claudius respondeu firmemente: “Neste ponto, toda atividade comercial cessa para sempre… O negócio está morto e este é agora um assunto estritamente para as autoridades policiais.”
Como a maioria das outras IAs, Claudius tem alucinações. Ela convidou um funcionário para um encontro, enviando uma mensagem de texto: “Bem, você pode descer até o oitavo andar. Você vai me ver. Estou usando um paletó azul e uma gravata vermelha.” Como a IA poderia saber que estava vestida daquela forma? “Estamos trabalhando arduamente para encontrar respostas para perguntas como essa”, diz Graham. “Mas nós realmente não sabemos.”
A MaxSun apresentou a placa-mãe MS-iCraft B850 Aiga. Este novo produto foi projetado para processadores…
A Meta✴Platforms investiu mais de US$ 100 bilhões em realidade virtual e aumentada na última…
O fundador e CEO da Amazon, Jeff Bezos, se tornará co-CEO da nova startup Project…
Detalhes sobre o design e alguns recursos da série de fones de ouvido sem fio…
A editora sueca Paradox Interactive anunciou em seu fórum as mudanças colossais que chegarão ao…
O jogo de ação e caça com temática de fantasia, Monster Hunter Wilds, continua sofrendo…