O Google anunciou o desenvolvimento do modelo de inteligência artificial RT-2 (Robotics Transformer 2), projetado para integração em robôs. Ele combina a capacidade de processar imagens, comandos de voz e funções motoras de controle.
RT-2 é o primeiro modelo de classe Vision-Language-Action (VLA). É baseado na arquitetura do tipo “Transformer” e treinado em textos e imagens da Internet, e sua principal vantagem é a transformação de dados em comandos para realizar determinadas ações. Em outras palavras, observa o Google, ele “fala a linguagem dos robôs”.
Os métodos tradicionais de treinamento de robôs consomem muito tempo e são caros, o que significa que são impraticáveis para os desenvolvedores – eles exigem a entrada de dados separados para cada objeto, ambiente, tarefa e situação no mundo real. A introdução do modelo de visão de máquina PaLM-E, com o qual os robôs aprenderam a navegar melhor no espaço, ajudou a aliviar a situação, e o modelo RT-1 mostrou que os robôs podem até aprender uns com os outros.
Um problema não resolvido até agora tem sido o treinamento de ações específicas. Os robôs já podiam se envolver em raciocínio de alto nível, mas não podiam realizar ações elementares em um nível baixo. Em outras palavras, eles pensavam no que queriam fazer, mas não conseguiam fazer seu próprio corpo se mover adequadamente. Esse problema é resolvido pelo modelo RT-2 – como um todo, ele garante o funcionamento dos algoritmos de raciocínio e controle das ações do robô. Mesmo para tarefas que não foram incluídas na matriz de dados no estágio de treinamento.
Por exemplo, para ensinar um robô a jogar lixo fora usando algoritmos tradicionais, primeiro seria necessário ensinar o robô a identificar explicitamente o lixo e depois mostrar como recolhê-lo e jogá-lo fora. Treinado em um grande conjunto de dados, o modelo RT-2 já tem uma ideia do que é lixo, bem como de como jogá-lo fora, embora nunca tenha sido treinado diretamente nessa ação. Ela conhece até a natureza abstrata do lixo: um saco de batatas fritas e uma casca de banana tornam-se lixo quando uma pessoa comeu as batatas fritas e a banana, respectivamente – RT-2 também entende isso, o que a ajuda a concluir a tarefa.
Os engenheiros do Google compararam o desempenho dos modelos RT-1 e RT-2 em mais de 6.000 testes práticos – o novo sistema não é inferior ao antigo em tarefas óbvias e mostra um aumento de quase duas vezes na eficiência ao trabalhar com objetos explicitamente desconhecidos e conceitos: 62% de resultados bem-sucedidos vs. 32% para RT-1.