A IA com “olhos” acabou sendo várias vezes mais cara do que uma API comum — os agentes estão consumindo todo o orçamento visitando sites.

Empresas que utilizam agentes de inteligência artificial podem gastar significativamente mais dinheiro se esses agentes operarem com dados visuais, simulando a visão humana.

Fonte da imagem: reflex.dev

Especialistas da plataforma de aplicativos corporativos Reflex compararam agentes de IA visual com agentes que acessam recursos externos via APIs. Ambos os agentes foram controlados pela rede neural Claude Sonnet Anthropic: no primeiro caso, controlavam o framework Python browser-use 0.12 para interações automatizadas com o navegador; no segundo, acessavam os mesmos aplicativos web via APIs. Ao acessar a API, o agente invocava os mesmos mecanismos de processamento que ao interagir com a interface do usuário, mas recebia dados estruturados como resposta, em vez de uma captura de tela da página web que exigia análise adicional.

Os organizadores do experimento atribuíram a ambos os agentes a seguinte tarefa: “Um cliente chamado Smith reclamou de um pedido recente. Encontre o Smith com o maior número de pedidos, processe todas as suas avaliações para moderação e marque a última como entregue.” O agente de IA que acessou a API completou a tarefa em oito requisições ao modelo de IA; a variante visual encontrou apenas uma das quatro avaliações pendentes — perdeu as outras três porque não se lembrou de rolar a página. Quando as condições da tarefa foram simplificadas para se adequarem ao agente de IA visual, ele a concluiu em cerca de 17 minutos; a variante baseada em API alcançou o resultado em 20 segundos e consumiu 45 vezes menos tokens do modelo de IA.

Anthropic estima que o processamento de uma imagem de 1000 x 1000 pixels usando o modelo Claude Sonnet 4.6 consome cerca de 1.334 tokens. O agente de IA visual consumiu cerca de 500.000 tokens de entrada e cerca de 38.000 tokens de saída para concluir a tarefa; o agente baseado em API consumiu cerca de 12.150 tokens de entrada e 934 tokens de saída. Os autores do experimento concluíram que os agentes de visão computacional deveriamUtilize apenas para aplicações que o usuário não controla; processos internos devem ser tratados via API.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O mercado de SSDs para consumidores praticamente evaporou, afirma o CEO da Silicon Motion.

O mercado consumidor de SSD praticamente desapareceu no primeiro semestre de 2026, de acordo com…

2 horas atrás

Nvidia atualizou drivers para placas de vídeo desatualizadas em Maxwell, Pascal e Volta

\nA Nvidia lançou o driver GeForce 582.66 WHQL para GPUs GeForce mais antigas baseadas nas…

2 horas atrás

O Google lançou o Android 17, trazendo um limitador de RAM, bolhas de aplicativos e outras melhorias.

O Google lançou o Android 17, com os dispositivos Pixel sendo os primeiros a receber…

4 horas atrás

A Nvidia lançou um driver com suporte para o jogo de tiro em equipe Empulse.

A Nvidia lançou a versão mais recente do driver gráfico GeForce Game Ready 610.62 WHQL,…

4 horas atrás

A Qualcomm apresentou o processador Snapdragon Reality Elite para óculos inteligentes, headsets de realidade aumentada e realidade estendida.

Na Augmented World Expo (AWE), a Qualcomm apresentou o processador Snapdragon Reality Elite, projetado para…

4 horas atrás