O Google ensinou o robô a executar comandos e dirigir pelo escritório usando a rede neural Gemini

A equipe do Google DeepMind Robotics demonstrou esta semana como o robô RT-2, treinado usando a rede neural Google Gemini 1.5 Pro, pode executar comandos de linguagem natural e se movimentar em um escritório.

Fonte da imagem: Google DeepMind

A DeepMind Robotics publicou um artigo intitulado “Mobility VLA: Navegação instrucional multimodal usando VLM com contexto longo e gráficos topológicos”, no qual uma série de vídeos mostrava o robô realizando diversas tarefas em um espaço de escritório de 9.000 metros quadrados. pés (836 m2).

Em um vídeo, um funcionário do Google pede ao robô que o leve a algum lugar para desenhar. “Ok”, ele responde, “dê-me um minuto”. Estamos pensando junto com Gêmeos…” O robô então conduz a pessoa até um quadro branco do tamanho de uma parede.

No segundo vídeo, outro funcionário pede ao robô que siga as instruções de um quadro. Ele desenha um mapa simples mostrando como chegar à Zona Azul. Mais uma vez, o robô pensa por um momento antes de seguir a rota especificada até um local que acaba sendo um local de testes de robótica. “Segui com sucesso as instruções no quadro”, relata o robô.

Antes de gravar os vídeos, os robôs foram familiarizados com o espaço por meio da solução Multimodal Instructional Navigation with Demonstration Tours (MINT). Graças a isso, o robô pode se movimentar pelo escritório de acordo com vários pontos de referência indicados pela fala. A DeepMind Robotics usou então um sistema hierárquico de Visão-Linguagem-Ação (VLA) “que combina a consciência ambiental com o poder do bom senso”. Após combinar os processos, o robô ganhou a capacidade de responder a comandos escritos e desenhados, bem como a gestos e navegar pela área.

Segundo o Google, em cerca de 90% das 50 interações com funcionários, os robôs seguiram com sucesso as instruções que lhes foram dadas.

avalanche

Postagens recentes

O Google descobriu e bloqueou, pela primeira vez, uma vulnerabilidade de IA que permitia quebrar a autenticação de dois fatores (2FA).

O Google descobriu e bloqueou, pela primeira vez, uma vulnerabilidade zero-day (um método de ataque…

13 minutos atrás

A AMD está desenvolvendo uma placa de vídeo Radeon RX 9050 para desktops com 8 GB de memória.

A AMD está preparando mais uma placa de vídeo para desktops da série Radeon RX…

25 minutos atrás

Após cinco meses de testes beta, a Samsung lançou a One UI 8.5 para dispositivos Galaxy compatíveis.

A Samsung lançou a versão estável da sua interface de usuário proprietária One UI 8.5…

37 minutos atrás

A DJI apresentou os poderosos aspiradores robóticos Romo 2, equipados com sensores semelhantes aos de drones e carregamento rápido.

A DJI apresentou na China sua nova série Romo 2 de aspiradores robóticos com inteligência…

2 horas atrás

O satélite LINK passou nos testes e aproximou o observatório Swift da possibilidade de ser salvo da destruição pela atmosfera.

O veículo de serviço LINK, projetado para capturar e rebocar satélites para a órbita baixa…

2 horas atrás

Stellar Blade 2 será publicado não pela Sony, mas pela própria Shift Up – o anúncio oficial da sequência está prestes a ser feito.

Em seu relatório financeiro referente ao primeiro trimestre de 2026, o estúdio sul-coreano Shift Up…

2 horas atrás