A IA com “olhos” acabou sendo várias vezes mais cara do que uma API comum — os agentes estão consumindo todo o orçamento visitando sites.

Empresas que utilizam agentes de inteligência artificial podem gastar significativamente mais dinheiro se esses agentes operarem com dados visuais, simulando a visão humana.

Fonte da imagem: reflex.dev

Especialistas da plataforma de aplicativos corporativos Reflex compararam agentes de IA visual com agentes que acessam recursos externos via APIs. Ambos os agentes foram controlados pela rede neural Claude Sonnet Anthropic: no primeiro caso, controlavam o framework Python browser-use 0.12 para interações automatizadas com o navegador; no segundo, acessavam os mesmos aplicativos web via APIs. Ao acessar a API, o agente invocava os mesmos mecanismos de processamento que ao interagir com a interface do usuário, mas recebia dados estruturados como resposta, em vez de uma captura de tela da página web que exigia análise adicional.

Os organizadores do experimento atribuíram a ambos os agentes a seguinte tarefa: “Um cliente chamado Smith reclamou de um pedido recente. Encontre o Smith com o maior número de pedidos, processe todas as suas avaliações para moderação e marque a última como entregue.” O agente de IA que acessou a API completou a tarefa em oito requisições ao modelo de IA; a variante visual encontrou apenas uma das quatro avaliações pendentes — perdeu as outras três porque não se lembrou de rolar a página. Quando as condições da tarefa foram simplificadas para se adequarem ao agente de IA visual, ele a concluiu em cerca de 17 minutos; a variante baseada em API alcançou o resultado em 20 segundos e consumiu 45 vezes menos tokens do modelo de IA.

Anthropic estima que o processamento de uma imagem de 1000 x 1000 pixels usando o modelo Claude Sonnet 4.6 consome cerca de 1.334 tokens. O agente de IA visual consumiu cerca de 500.000 tokens de entrada e cerca de 38.000 tokens de saída para concluir a tarefa; o agente baseado em API consumiu cerca de 12.150 tokens de entrada e 934 tokens de saída. Os autores do experimento concluíram que os agentes de visão computacional deveriamUtilize apenas para aplicações que o usuário não controla; processos internos devem ser tratados via API.

admin

Compartilhar
Publicado por
admin

Postagens recentes

“Não foi planejado”: Motorola admite ter falsificado secretamente links da Amazon em seus smartphones.

Anteriormente, foi relatado que smartphones da Motorola começaram a interceptar a inicialização do aplicativo da…

53 minutos atrás

Os próximos smartphones Huawei Mate 90 virão equipados com um processador Kirin baseado em tecnologia de processo de 3 nanômetros.

A Huawei revelou recentemente sua lei de escalonamento de semicondutores, denominada "Lei de Escalonamento Tau",…

53 minutos atrás

O boom da IA ​​levou a TSMC a aumentar os preços dos chips de 3nm em 15% este ano e em mais 10% no próximo ano.

A inteligência artificial continua a impulsionar a escassez de capacidade na TSMC. A demanda pelo…

1 hora atrás

Kojima finalmente conquistou o espaço, mas apenas em um anúncio de inteligência artificial para a Prada.

O renomado designer de jogos japonês Hideo Kojima falou repetidamente sobre seu desejo de viajar…

2 horas atrás