O Google facilitou o treinamento de robôs para fazer coisas diferentes com a ajuda do modelo RT-2 AI – as máquinas foram ensinadas a jogar lixo fora

O Google anunciou o desenvolvimento do modelo de inteligência artificial RT-2 (Robotics Transformer 2), projetado para integração em robôs. Ele combina a capacidade de processar imagens, comandos de voz e funções motoras de controle.

Fonte da imagem: blog.google

RT-2 é o primeiro modelo de classe Vision-Language-Action (VLA). É baseado na arquitetura do tipo “Transformer” e treinado em textos e imagens da Internet, e sua principal vantagem é a transformação de dados em comandos para realizar determinadas ações. Em outras palavras, observa o Google, ele “fala a linguagem dos robôs”.

Os métodos tradicionais de treinamento de robôs consomem muito tempo e são caros, o que significa que são impraticáveis ​​para os desenvolvedores – eles exigem a entrada de dados separados para cada objeto, ambiente, tarefa e situação no mundo real. A introdução do modelo de visão de máquina PaLM-E, com o qual os robôs aprenderam a navegar melhor no espaço, ajudou a aliviar a situação, e o modelo RT-1 mostrou que os robôs podem até aprender uns com os outros.

Um problema não resolvido até agora tem sido o treinamento de ações específicas. Os robôs já podiam se envolver em raciocínio de alto nível, mas não podiam realizar ações elementares em um nível baixo. Em outras palavras, eles pensavam no que queriam fazer, mas não conseguiam fazer seu próprio corpo se mover adequadamente. Esse problema é resolvido pelo modelo RT-2 – como um todo, ele garante o funcionamento dos algoritmos de raciocínio e controle das ações do robô. Mesmo para tarefas que não foram incluídas na matriz de dados no estágio de treinamento.

Por exemplo, para ensinar um robô a jogar lixo fora usando algoritmos tradicionais, primeiro seria necessário ensinar o robô a identificar explicitamente o lixo e depois mostrar como recolhê-lo e jogá-lo fora. Treinado em um grande conjunto de dados, o modelo RT-2 já tem uma ideia do que é lixo, bem como de como jogá-lo fora, embora nunca tenha sido treinado diretamente nessa ação. Ela conhece até a natureza abstrata do lixo: um saco de batatas fritas e uma casca de banana tornam-se lixo quando uma pessoa comeu as batatas fritas e a banana, respectivamente – RT-2 também entende isso, o que a ajuda a concluir a tarefa.

Os engenheiros do Google compararam o desempenho dos modelos RT-1 e RT-2 em mais de 6.000 testes práticos – o novo sistema não é inferior ao antigo em tarefas óbvias e mostra um aumento de quase duas vezes na eficiência ao trabalhar com objetos explicitamente desconhecidos e conceitos: 62% de resultados bem-sucedidos vs. 32% para RT-1.

avalanche

Postagens recentes

A Thermalright introduziu as almofadas térmicas Heilos para CPUs – elas são mais convenientes de aplicar do que pasta térmica

A empresa taiwanesa Thermalright apresentou as almofadas térmicas Heilos, que são propostas para serem usadas…

1 hora atrás

NASA lança seu próprio serviço de streaming de vídeo

A NASA está se preparando para relançar sua grade de sites, lançar versões atualizadas de…

2 horas atrás

Infineon inicia produção em massa de placas de circuito impresso solúveis em água

A Infineon Technologies pretende lançar a produção de placas de circuito impresso recicláveis ​​a partir…

3 horas atrás

Elon Musk queria deixar apenas um tema sombrio no X, mas mudou de ideia

O dono do serviço de microblogging X (antigo Twitter), Elon Musk, planejava deixar apenas o…

3 horas atrás

Inno3D apresenta GeForce RTX 4090 iChill Frostbite Ultra e iChill Frostbite Pro com blocos de água

A Inno3D apresentou duas novas versões da GeForce RTX 4090 equipadas com sistemas de refrigeração…

3 horas atrás