O Google revelou um modelo Gemini que preenche formulários em um navegador e joga 2048.

O Google revelou uma prévia do seu novo modelo de IA Gemini 2.5, que conta com um recurso de uso do computador que permite interagir com sites por meio de um navegador, imitando interações humanas. O modelo utiliza compreensão visual e raciocínio lógico para realizar tarefas como preencher e enviar formulários sem o uso de uma API ou outra interface de programação.

Fonte da imagem: Solen Feyissa/Unsplash

De acordo com o The Verge, o modelo Gemini 2.5 Computer Use foi projetado para interfaces de usuário projetadas para humanos, não para sistemas automatizados. O Google afirma que a tecnologia já foi utilizada em seus recursos de agente do Modo IA e no protótipo de pesquisa do Projeto Mariner, onde agentes de IA executavam tarefas de forma autônoma em um navegador, como adicionar itens a um carrinho de compras com base em uma lista de ingredientes.

Curiosamente, o anúncio do novo modelo ocorreu um dia após a OpenAI revelar novas aplicações para o ChatGPT em seu evento anual Dev Day, dando continuidade ao desenvolvimento do recurso ChatGPT Agent, que pode executar tarefas complexas em nome do usuário. Enquanto isso, a Anthropic lançou uma versão do modelo Claude com o Computer Use no ano passado. No entanto, o Google afirma que seu modelo “supera concorrentes líderes em diversos benchmarks da web e mobile”.

Ao contrário do ChatGPT Agent e da Anthropic, o Gemini 2.5 Computer Use acessa apenas o navegador, não todo o sistema operacional. O Google enfatizou que a solução “ainda não está otimizada para controle em nível de desktop” e suporta 13 ações, incluindo abrir um navegador da web, inserir texto e arrastar e soltar elementos.

O modelo já está disponível para desenvolvedores por meio das plataformas Google AI Studio e Vertex AI. Além disso, uma demonstração pública está disponível no navegador virtual BrowserBase, onde você pode assistir a IA executar tarefas como “jogar 2048” ou “navegar no Hacker News para ver os tópicos mais populares”.

admin

Postagens recentes

Calendário de lançamentos de 23 a 29 de março: Life is Strange: Reunion, Screamer e Damon and Baby.

O final de março traz uma onda de lançamentos, todos concentrados em um único dia.…

2 horas atrás

A Meta contratou a equipe da startup de IA Dreamer, deixando a tecnologia para trás.

A Meta✴ contratou ex-executivos do Google e do Stripe, fundadores da startup de IA Dreamer,…

3 horas atrás

A Apple planeja adicionar publicidade ao app Mapas neste verão.

Segundo o jornalista da Bloomberg, Mark Gurman, a Apple planeja integrar publicidade ao aplicativo Mapas.…

4 horas atrás

Crimson Desert recebeu uma atualização com suas primeiras melhorias de controle, e as avaliações no Steam têm sido “majoritariamente positivas”.

Os usuários do Steam receberam o ambicioso jogo de ação e aventura em mundo aberto…

7 horas atrás