O Google facilitou o treinamento de robôs para fazer coisas diferentes com a ajuda do modelo RT-2 AI – as máquinas foram ensinadas a jogar lixo fora

O Google anunciou o desenvolvimento do modelo de inteligência artificial RT-2 (Robotics Transformer 2), projetado para integração em robôs. Ele combina a capacidade de processar imagens, comandos de voz e funções motoras de controle.

Fonte da imagem: blog.google

RT-2 é o primeiro modelo de classe Vision-Language-Action (VLA). É baseado na arquitetura do tipo “Transformer” e treinado em textos e imagens da Internet, e sua principal vantagem é a transformação de dados em comandos para realizar determinadas ações. Em outras palavras, observa o Google, ele “fala a linguagem dos robôs”.

Os métodos tradicionais de treinamento de robôs consomem muito tempo e são caros, o que significa que são impraticáveis ​​para os desenvolvedores – eles exigem a entrada de dados separados para cada objeto, ambiente, tarefa e situação no mundo real. A introdução do modelo de visão de máquina PaLM-E, com o qual os robôs aprenderam a navegar melhor no espaço, ajudou a aliviar a situação, e o modelo RT-1 mostrou que os robôs podem até aprender uns com os outros.

Um problema não resolvido até agora tem sido o treinamento de ações específicas. Os robôs já podiam se envolver em raciocínio de alto nível, mas não podiam realizar ações elementares em um nível baixo. Em outras palavras, eles pensavam no que queriam fazer, mas não conseguiam fazer seu próprio corpo se mover adequadamente. Esse problema é resolvido pelo modelo RT-2 – como um todo, ele garante o funcionamento dos algoritmos de raciocínio e controle das ações do robô. Mesmo para tarefas que não foram incluídas na matriz de dados no estágio de treinamento.

Por exemplo, para ensinar um robô a jogar lixo fora usando algoritmos tradicionais, primeiro seria necessário ensinar o robô a identificar explicitamente o lixo e depois mostrar como recolhê-lo e jogá-lo fora. Treinado em um grande conjunto de dados, o modelo RT-2 já tem uma ideia do que é lixo, bem como de como jogá-lo fora, embora nunca tenha sido treinado diretamente nessa ação. Ela conhece até a natureza abstrata do lixo: um saco de batatas fritas e uma casca de banana tornam-se lixo quando uma pessoa comeu as batatas fritas e a banana, respectivamente – RT-2 também entende isso, o que a ajuda a concluir a tarefa.

Os engenheiros do Google compararam o desempenho dos modelos RT-1 e RT-2 em mais de 6.000 testes práticos – o novo sistema não é inferior ao antigo em tarefas óbvias e mostra um aumento de quase duas vezes na eficiência ao trabalhar com objetos explicitamente desconhecidos e conceitos: 62% de resultados bem-sucedidos vs. 32% para RT-1.

avalanche

Postagens recentes

A AMD apoiará a Crusoe, venderá seus chips e os alugará caso algo dê errado.

Segundo o The Information, a AMD fornecerá uma garantia de empréstimo de US$ 300 milhões…

2 horas atrás

A Lenovo estabeleceu um prazo limite para encomendas aos preços antigos; os preços irão aumentar ainda mais devido à escassez de memória.

A Lenovo notificou oficialmente seus parceiros sobre um aumento forçado de preços em diversas configurações…

3 horas atrás

O mistério dos “bonecos de neve” na periferia do sistema solar foi resolvido após seis anos.

A primeira fotografia de um "boneco de neve" muito além da órbita de Netuno foi…

3 horas atrás

A NASA definiu a próxima data para uma missão tripulada à Lua: 6 de março.

A NASA agendou a primeira missão tripulada à Lua para 6 de março. Ontem, 20…

7 horas atrás

Não apenas Cyberpunk 2077: jogos AAA para PC agora rodam em dispositivos Android potentes, mas com limitações.

A emulação de jogos de PC no Android está ganhando força e agora está acessível…

9 horas atrás

Não apenas Cyberpunk 2077: jogos AAA para PC agora rodam em dispositivos Android potentes, mas com limitações.

A emulação de jogos de PC no Android está ganhando força e agora está acessível…

9 horas atrás