O Google revelou um modelo Gemini que preenche formulários em um navegador e joga 2048.

O Google revelou uma prévia do seu novo modelo de IA Gemini 2.5, que conta com um recurso de uso do computador que permite interagir com sites por meio de um navegador, imitando interações humanas. O modelo utiliza compreensão visual e raciocínio lógico para realizar tarefas como preencher e enviar formulários sem o uso de uma API ou outra interface de programação.

Fonte da imagem: Solen Feyissa/Unsplash

De acordo com o The Verge, o modelo Gemini 2.5 Computer Use foi projetado para interfaces de usuário projetadas para humanos, não para sistemas automatizados. O Google afirma que a tecnologia já foi utilizada em seus recursos de agente do Modo IA e no protótipo de pesquisa do Projeto Mariner, onde agentes de IA executavam tarefas de forma autônoma em um navegador, como adicionar itens a um carrinho de compras com base em uma lista de ingredientes.

Curiosamente, o anúncio do novo modelo ocorreu um dia após a OpenAI revelar novas aplicações para o ChatGPT em seu evento anual Dev Day, dando continuidade ao desenvolvimento do recurso ChatGPT Agent, que pode executar tarefas complexas em nome do usuário. Enquanto isso, a Anthropic lançou uma versão do modelo Claude com o Computer Use no ano passado. No entanto, o Google afirma que seu modelo “supera concorrentes líderes em diversos benchmarks da web e mobile”.

Ao contrário do ChatGPT Agent e da Anthropic, o Gemini 2.5 Computer Use acessa apenas o navegador, não todo o sistema operacional. O Google enfatizou que a solução “ainda não está otimizada para controle em nível de desktop” e suporta 13 ações, incluindo abrir um navegador da web, inserir texto e arrastar e soltar elementos.

O modelo já está disponível para desenvolvedores por meio das plataformas Google AI Studio e Vertex AI. Além disso, uma demonstração pública está disponível no navegador virtual BrowserBase, onde você pode assistir a IA executar tarefas como “jogar 2048” ou “navegar no Hacker News para ver os tópicos mais populares”.

admin

Postagens recentes

“Muito feliz e ainda atônito”: Clair Obscur: As vendas de Expedition 33 ultrapassam 8 milhões de cópias em seu primeiro aniversário.

O aclamado jogo de RPG de fantasia por turnos Clair Obscur: Expedition 33, do estúdio…

22 minutos atrás

A Meta✴ implantará “dezenas de milhões” de núcleos AWS Graviton5 Arm.

A Meta✴, segundo o The Register, anunciou uma parceria ampliada com a AWS. Isso envolve…

54 minutos atrás

Os três maiores colecionadores do Steam acumularam mais de 40.000 jogos em suas contas.

No outono passado, noticiamos que o usuário chinês Sonix se tornou o primeiro usuário do…

54 minutos atrás

O Yandex começou a notificar os usuários quando golpistas ligam para seus entes queridos.

O recurso de identificação de chamadas do Yandex foi atualizado com uma nova funcionalidade: quando…

54 minutos atrás

A placa gráfica chinesa para jogos Lisuan LX 7G100 será lançada em junho e será compatível com mais de cem jogos.

A empresa chinesa Lisuan Technology confirmou seus planos de lançar a placa de vídeo LX…

54 minutos atrás

O Instagram começou a testar o Instants, um aplicativo para compartilhar fotos únicas.

O Instagram está testando um novo aplicativo chamado Instants, informou a rede social ao TechCrunch.…

2 horas atrás