O Google revelou um modelo Gemini que preenche formulários em um navegador e joga 2048.

O Google revelou uma prévia do seu novo modelo de IA Gemini 2.5, que conta com um recurso de uso do computador que permite interagir com sites por meio de um navegador, imitando interações humanas. O modelo utiliza compreensão visual e raciocínio lógico para realizar tarefas como preencher e enviar formulários sem o uso de uma API ou outra interface de programação.

Fonte da imagem: Solen Feyissa/Unsplash

De acordo com o The Verge, o modelo Gemini 2.5 Computer Use foi projetado para interfaces de usuário projetadas para humanos, não para sistemas automatizados. O Google afirma que a tecnologia já foi utilizada em seus recursos de agente do Modo IA e no protótipo de pesquisa do Projeto Mariner, onde agentes de IA executavam tarefas de forma autônoma em um navegador, como adicionar itens a um carrinho de compras com base em uma lista de ingredientes.

Curiosamente, o anúncio do novo modelo ocorreu um dia após a OpenAI revelar novas aplicações para o ChatGPT em seu evento anual Dev Day, dando continuidade ao desenvolvimento do recurso ChatGPT Agent, que pode executar tarefas complexas em nome do usuário. Enquanto isso, a Anthropic lançou uma versão do modelo Claude com o Computer Use no ano passado. No entanto, o Google afirma que seu modelo “supera concorrentes líderes em diversos benchmarks da web e mobile”.

Ao contrário do ChatGPT Agent e da Anthropic, o Gemini 2.5 Computer Use acessa apenas o navegador, não todo o sistema operacional. O Google enfatizou que a solução “ainda não está otimizada para controle em nível de desktop” e suporta 13 ações, incluindo abrir um navegador da web, inserir texto e arrastar e soltar elementos.

O modelo já está disponível para desenvolvedores por meio das plataformas Google AI Studio e Vertex AI. Além disso, uma demonstração pública está disponível no navegador virtual BrowserBase, onde você pode assistir a IA executar tarefas como “jogar 2048” ou “navegar no Hacker News para ver os tópicos mais populares”.

admin

Postagens recentes

Clair Obscur: O primeiro aniversário da Expedição 33 trouxe um patch inesperado e decepção para os fãs.

O aclamado RPG de fantasia por turnos Clair Obscur: Expedition 33, do estúdio francês Sandfall…

20 minutos atrás

O DeepSeek V4, um modelo de IA de código aberto que competirá com as melhores soluções da OpenAI e do Google, foi apresentado.

A empresa chinesa DeepSeek lançou uma versão preliminar de seu modelo de linguagem em larga…

52 minutos atrás

A Microsoft inicia um programa de demissões “suaves”: 7% dos funcionários serão enviados para aposentadoria antecipada.

As gigantes americanas da tecnologia começaram a demitir funcionários com diferentes graus de franqueza, alegando…

52 minutos atrás

“Mais um passo rumo à dominação mundial da Housemarque”: os críticos deram seu veredicto sobre o ambicioso filme de ação Saros, dos criadores de Returnal.

O jogo de ação e ficção científica Saros, da Sony Interactive Entertainment e da desenvolvedora…

52 minutos atrás

Na próxima década, as pessoas começarão a viver e trabalhar na Lua, prometeu o chefe da startup Voyager Technologies.

Elon Musk não é o único que sonha em colonizar a Lua e Marte. Dylan…

52 minutos atrás

A Intel afirmou que, sem otimizações, os jogos perdem até 30% do seu desempenho.

O baixo desempenho em jogos nem sempre se deve à baixa potência do processador, afirmou…

1 hora atrás