O Google facilitou o treinamento de robôs para fazer coisas diferentes com a ajuda do modelo RT-2 AI – as máquinas foram ensinadas a jogar lixo fora

O Google anunciou o desenvolvimento do modelo de inteligência artificial RT-2 (Robotics Transformer 2), projetado para integração em robôs. Ele combina a capacidade de processar imagens, comandos de voz e funções motoras de controle.

Fonte da imagem: blog.google

RT-2 é o primeiro modelo de classe Vision-Language-Action (VLA). É baseado na arquitetura do tipo “Transformer” e treinado em textos e imagens da Internet, e sua principal vantagem é a transformação de dados em comandos para realizar determinadas ações. Em outras palavras, observa o Google, ele “fala a linguagem dos robôs”.

Os métodos tradicionais de treinamento de robôs consomem muito tempo e são caros, o que significa que são impraticáveis ​​para os desenvolvedores – eles exigem a entrada de dados separados para cada objeto, ambiente, tarefa e situação no mundo real. A introdução do modelo de visão de máquina PaLM-E, com o qual os robôs aprenderam a navegar melhor no espaço, ajudou a aliviar a situação, e o modelo RT-1 mostrou que os robôs podem até aprender uns com os outros.

Um problema não resolvido até agora tem sido o treinamento de ações específicas. Os robôs já podiam se envolver em raciocínio de alto nível, mas não podiam realizar ações elementares em um nível baixo. Em outras palavras, eles pensavam no que queriam fazer, mas não conseguiam fazer seu próprio corpo se mover adequadamente. Esse problema é resolvido pelo modelo RT-2 – como um todo, ele garante o funcionamento dos algoritmos de raciocínio e controle das ações do robô. Mesmo para tarefas que não foram incluídas na matriz de dados no estágio de treinamento.

Por exemplo, para ensinar um robô a jogar lixo fora usando algoritmos tradicionais, primeiro seria necessário ensinar o robô a identificar explicitamente o lixo e depois mostrar como recolhê-lo e jogá-lo fora. Treinado em um grande conjunto de dados, o modelo RT-2 já tem uma ideia do que é lixo, bem como de como jogá-lo fora, embora nunca tenha sido treinado diretamente nessa ação. Ela conhece até a natureza abstrata do lixo: um saco de batatas fritas e uma casca de banana tornam-se lixo quando uma pessoa comeu as batatas fritas e a banana, respectivamente – RT-2 também entende isso, o que a ajuda a concluir a tarefa.

Os engenheiros do Google compararam o desempenho dos modelos RT-1 e RT-2 em mais de 6.000 testes práticos – o novo sistema não é inferior ao antigo em tarefas óbvias e mostra um aumento de quase duas vezes na eficiência ao trabalhar com objetos explicitamente desconhecidos e conceitos: 62% de resultados bem-sucedidos vs. 32% para RT-1.

avalanche

Postagens recentes

Uma fonte confiável acredita que a grande apresentação Nintendo Direct de junho acontecerá na próxima semana.

A gigante japonesa de consoles Nintendo pode realizar uma apresentação Nintendo Direct de jogos na…

22 minutos atrás

Um fragmento de um protoplaneta desaparecido, da época da formação do sistema solar, foi encontrado no Saara.

Um meteorito encontrado no Deserto do Saara, na África, fornece a primeira evidência convincente de…

22 minutos atrás

O Sberbank anuncia o NEO, o primeiro terminal de pagamentos do mundo com inteligência artificial.

O Sberbank apresentou um novo terminal de pagamentos NEO com inteligência artificial integrada no Fórum…

56 minutos atrás

Apple zomba de smartphones Android por problemas de privacidade em novo anúncio do iPhone

Em seu mais recente anúncio "Privacidade no iPhone", a Apple zombou dos problemas de privacidade…

1 hora atrás

Strauss Zelnick, CEO da Take-Two Interactive, agora é lutador – o executivo foi adicionado ao WWE 2K26.

A atualização lançada ontem para o simulador de luta livre WWE 2K26, da editora 2K…

1 hora atrás