O Google facilitou o treinamento de robôs para fazer coisas diferentes com a ajuda do modelo RT-2 AI – as máquinas foram ensinadas a jogar lixo fora

O Google anunciou o desenvolvimento do modelo de inteligência artificial RT-2 (Robotics Transformer 2), projetado para integração em robôs. Ele combina a capacidade de processar imagens, comandos de voz e funções motoras de controle.

Fonte da imagem: blog.google

RT-2 é o primeiro modelo de classe Vision-Language-Action (VLA). É baseado na arquitetura do tipo “Transformer” e treinado em textos e imagens da Internet, e sua principal vantagem é a transformação de dados em comandos para realizar determinadas ações. Em outras palavras, observa o Google, ele “fala a linguagem dos robôs”.

Os métodos tradicionais de treinamento de robôs consomem muito tempo e são caros, o que significa que são impraticáveis ​​para os desenvolvedores – eles exigem a entrada de dados separados para cada objeto, ambiente, tarefa e situação no mundo real. A introdução do modelo de visão de máquina PaLM-E, com o qual os robôs aprenderam a navegar melhor no espaço, ajudou a aliviar a situação, e o modelo RT-1 mostrou que os robôs podem até aprender uns com os outros.

Um problema não resolvido até agora tem sido o treinamento de ações específicas. Os robôs já podiam se envolver em raciocínio de alto nível, mas não podiam realizar ações elementares em um nível baixo. Em outras palavras, eles pensavam no que queriam fazer, mas não conseguiam fazer seu próprio corpo se mover adequadamente. Esse problema é resolvido pelo modelo RT-2 – como um todo, ele garante o funcionamento dos algoritmos de raciocínio e controle das ações do robô. Mesmo para tarefas que não foram incluídas na matriz de dados no estágio de treinamento.

Por exemplo, para ensinar um robô a jogar lixo fora usando algoritmos tradicionais, primeiro seria necessário ensinar o robô a identificar explicitamente o lixo e depois mostrar como recolhê-lo e jogá-lo fora. Treinado em um grande conjunto de dados, o modelo RT-2 já tem uma ideia do que é lixo, bem como de como jogá-lo fora, embora nunca tenha sido treinado diretamente nessa ação. Ela conhece até a natureza abstrata do lixo: um saco de batatas fritas e uma casca de banana tornam-se lixo quando uma pessoa comeu as batatas fritas e a banana, respectivamente – RT-2 também entende isso, o que a ajuda a concluir a tarefa.

Os engenheiros do Google compararam o desempenho dos modelos RT-1 e RT-2 em mais de 6.000 testes práticos – o novo sistema não é inferior ao antigo em tarefas óbvias e mostra um aumento de quase duas vezes na eficiência ao trabalhar com objetos explicitamente desconhecidos e conceitos: 62% de resultados bem-sucedidos vs. 32% para RT-1.

avalanche

Postagens recentes

Os Países Baixos defenderam a ASML e pediram aos EUA que não proibissem o fornecimento de litografias à China.

Esta semana, o Ministro do Comércio holandês, Sjoerd Sjoerdsma, viajou a Washington para se encontrar…

17 minutos atrás

Phasmophobia não sairá do Acesso Antecipado em 2026, mas migrará para a Unity 6 e além — os desenvolvedores revelaram o plano de desenvolvimento do jogo.

O estúdio britânico Kinetic Games divulgou planos para o desenvolvimento futuro de seu jogo de…

2 horas atrás

A Anthropic acusou a Alibaba de usar o nome Claude em larga escala para treinar seus modelos de IA.

A desenvolvedora americana de IA, Anthropic, acusou a gigante chinesa de tecnologia Alibaba de explorar…

2 horas atrás