O Google revelou um modelo Gemini que preenche formulários em um navegador e joga 2048.

O Google revelou uma prévia do seu novo modelo de IA Gemini 2.5, que conta com um recurso de uso do computador que permite interagir com sites por meio de um navegador, imitando interações humanas. O modelo utiliza compreensão visual e raciocínio lógico para realizar tarefas como preencher e enviar formulários sem o uso de uma API ou outra interface de programação.

Fonte da imagem: Solen Feyissa/Unsplash

De acordo com o The Verge, o modelo Gemini 2.5 Computer Use foi projetado para interfaces de usuário projetadas para humanos, não para sistemas automatizados. O Google afirma que a tecnologia já foi utilizada em seus recursos de agente do Modo IA e no protótipo de pesquisa do Projeto Mariner, onde agentes de IA executavam tarefas de forma autônoma em um navegador, como adicionar itens a um carrinho de compras com base em uma lista de ingredientes.

Curiosamente, o anúncio do novo modelo ocorreu um dia após a OpenAI revelar novas aplicações para o ChatGPT em seu evento anual Dev Day, dando continuidade ao desenvolvimento do recurso ChatGPT Agent, que pode executar tarefas complexas em nome do usuário. Enquanto isso, a Anthropic lançou uma versão do modelo Claude com o Computer Use no ano passado. No entanto, o Google afirma que seu modelo “supera concorrentes líderes em diversos benchmarks da web e mobile”.

Ao contrário do ChatGPT Agent e da Anthropic, o Gemini 2.5 Computer Use acessa apenas o navegador, não todo o sistema operacional. O Google enfatizou que a solução “ainda não está otimizada para controle em nível de desktop” e suporta 13 ações, incluindo abrir um navegador da web, inserir texto e arrastar e soltar elementos.

O modelo já está disponível para desenvolvedores por meio das plataformas Google AI Studio e Vertex AI. Além disso, uma demonstração pública está disponível no navegador virtual BrowserBase, onde você pode assistir a IA executar tarefas como “jogar 2048” ou “navegar no Hacker News para ver os tópicos mais populares”.

admin

Postagens recentes

A ASML está se preparando para a adoção em massa da tecnologia EUV de alta NA no próximo ano para chips de 1,4 nm e mais finos.

A necessidade de maior miniaturização dos componentes semicondutores está forçando os fabricantes a migrarem para…

11 minutos atrás

“Em que diabos eles estavam pensando?”: Criador de God of War critica duramente o jogo Metroidvania God of War: Sons of Sparta.

David Jaffe, criador de God of War, compartilhou suas impressões sobre o jogo Metroidvania God…

33 minutos atrás

A Europa provou que consegue construir sua própria CPU para servidores usando a arquitetura RISC-V e a tecnologia de processo 3G da Intel.

Reduzir a dependência das importações também é importante para os desenvolvedores europeus de infraestrutura crítica,…

2 horas atrás

O jogo roguelike com gatos Mewgenics, do criador de The Binding of Isaac, ultrapassou Hades 2 em pico de jogadores online no Steam e está a caminho dos consoles.

Mewgenics, o RPG tático roguelike de criação de gatos dos criadores de The Binding of…

2 horas atrás

A empresa chinesa Montage Technology lançou os processadores para servidores Jintide, baseados no Intel Xeon 6.

A empresa chinesa Montage Technology, que recentemente concluiu sua oferta pública inicial (IPO) na Bolsa…

2 horas atrás

Fontes internas: O próximo grande jogo do diretor de God of War será lançado em 2027, e o anúncio está prestes a ser feito.

O próximo grande jogo do Santa Monica Studio, pertencente à Sony, e de Cory Barlog,…

3 horas atrás