A IA ensinou um cão-robô a se equilibrar em uma bola – ele treina robôs com mais eficiência do que humanos

Um grupo de cientistas da Universidade da Pensilvânia desenvolveu um sistema chamado DrEureka, projetado para treinar robôs usando grandes modelos de linguagem de inteligência artificial como OpenAI GPT-4. Acontece que este é um método mais eficaz do que uma sequência de tarefas no mundo real, mas requer atenção especial de uma pessoa devido às peculiaridades do “pensamento” da IA.

Fonte da imagem: eureka-research.github.io

A plataforma DrEureka (Domain Randomization Eureka) confirmou seu desempenho usando o exemplo do robô Unitree Go1, uma máquina quadrúpede de código aberto. Envolve treinar um robô em um ambiente simulado usando randomização de variáveis-chave: atrito, massa, amortecimento, deslocamento do centro de gravidade e outros parâmetros. Com base em diversas solicitações dos usuários, a IA gerou um código que descreve um sistema de recompensas e penalidades para o treinamento do robô em ambiente virtual. Ao final de cada simulação, a IA analisa quão bem o robô virtual lidou com a próxima tarefa e como seu desempenho pode ser melhorado. É importante que a rede neural seja capaz de gerar rapidamente cenários em grandes volumes e lançar sua execução simultaneamente.

A IA cria tarefas com valores máximos e mínimos de parâmetros em pontos de falha ou quebra do mecanismo, cujo cumprimento ou superação acarreta diminuição na pontuação para conclusão do cenário de treinamento. Os autores do estudo observam que são necessárias instruções de segurança adicionais para escrever corretamente o código de IA, caso contrário, a rede neural começa a “trapacear” durante a simulação em um esforço para atingir o desempenho máximo, o que no mundo real pode levar ao superaquecimento dos motores ou danos aos membros do robô. Num desses cenários não naturais, o robô virtual “descobriu” que poderia se mover mais rápido se desligasse uma das pernas e passasse a se mover sobre três.

Os pesquisadores instruíram a IA a tomar cuidado especial visto que o robô treinado seria testado no mundo real, então a rede neural criou funções de segurança adicionais para aspectos como suavidade de movimentos, orientação horizontal e altura do tronco, também levando em consideração a quantidade de torque para motores elétricos – não deve exceder os valores especificados. Como resultado, o sistema DrEureka lidou com o treinamento do robô melhor do que um humano: a máquina mostrou um aumento de 34% na velocidade de movimento e um aumento de 20% na distância percorrida em terrenos acidentados. Os pesquisadores explicaram esse resultado pela diferença de abordagens. Ao aprender um problema, a pessoa o divide em várias etapas e encontra uma solução para cada uma delas, enquanto o GPT ensina tudo de uma vez, e a pessoa claramente não é capaz disso.

Como resultado, o sistema DrEureka nos permitiu passar diretamente da simulação para o trabalho no mundo real. Os autores do projeto afirmam que poderiam melhorar ainda mais a eficiência da plataforma se conseguissem fornecer à IA feedback do mundo real – para isso, a rede neural precisaria estudar gravações de vídeo dos testes, não se limitando sozinho para analisar erros nos logs do sistema do robô. Uma pessoa média leva até 1,5 anos para aprender a andar, e apenas algumas conseguem andar em uma bola de ioga. O robô treinado por DrEureka lida com essa tarefa com eficácia.

avalanche

Postagens recentes

Presidente da Nintendo: sucessor do Switch será apresentado antes de 31 de março de 2025

A Nintendo revelará o sucessor dos consoles de jogos Switch e Switch OLED até o…

18 minutos atrás

A MediaTek apresentou o chip carro-chefe Dimensity 9300+ – Dimensity 9300 com overclock e um poderoso mecanismo de IA

A MediaTek apresentou o processador principal Dimensity 9300+, que é uma versão melhorada do Dimensity…

1 hora atrás

O projeto conjunto da Remedy com a Tencent foi cancelado – estava em desenvolvimento há mais de cinco anos

Desenvolvedores do estúdio finlandês Remedy Entertainment (a duologia Max Payne, Control, Alan Wake II) anunciaram…

1 hora atrás