Empresas que utilizam agentes de inteligência artificial podem gastar significativamente mais dinheiro se esses agentes operarem com dados visuais, simulando a visão humana.

Fonte da imagem: reflex.dev
Especialistas da plataforma de aplicativos corporativos Reflex compararam agentes de IA visual com agentes que acessam recursos externos via APIs. Ambos os agentes foram controlados pela rede neural Claude Sonnet Anthropic: no primeiro caso, controlavam o framework Python browser-use 0.12 para interações automatizadas com o navegador; no segundo, acessavam os mesmos aplicativos web via APIs. Ao acessar a API, o agente invocava os mesmos mecanismos de processamento que ao interagir com a interface do usuário, mas recebia dados estruturados como resposta, em vez de uma captura de tela da página web que exigia análise adicional.
Os organizadores do experimento atribuíram a ambos os agentes a seguinte tarefa: “Um cliente chamado Smith reclamou de um pedido recente. Encontre o Smith com o maior número de pedidos, processe todas as suas avaliações para moderação e marque a última como entregue.” O agente de IA que acessou a API completou a tarefa em oito requisições ao modelo de IA; a variante visual encontrou apenas uma das quatro avaliações pendentes — perdeu as outras três porque não se lembrou de rolar a página. Quando as condições da tarefa foram simplificadas para se adequarem ao agente de IA visual, ele a concluiu em cerca de 17 minutos; a variante baseada em API alcançou o resultado em 20 segundos e consumiu 45 vezes menos tokens do modelo de IA.
Anthropic estima que o processamento de uma imagem de 1000 x 1000 pixels usando o modelo Claude Sonnet 4.6 consome cerca de 1.334 tokens. O agente de IA visual consumiu cerca de 500.000 tokens de entrada e cerca de 38.000 tokens de saída para concluir a tarefa; o agente baseado em API consumiu cerca de 12.150 tokens de entrada e 934 tokens de saída. Os autores do experimento concluíram que os agentes de visão computacional deveriamUtilize apenas para aplicações que o usuário não controla; processos internos devem ser tratados via API.