Um grupo de cientistas da Universidade da Pensilvânia desenvolveu um sistema chamado DrEureka, projetado para treinar robôs usando grandes modelos de linguagem de inteligência artificial como OpenAI GPT-4. Acontece que este é um método mais eficaz do que uma sequência de tarefas no mundo real, mas requer atenção especial de uma pessoa devido às peculiaridades do “pensamento” da IA.

Fonte da imagem: eureka-research.github.io

A plataforma DrEureka (Domain Randomization Eureka) confirmou seu desempenho usando o exemplo do robô Unitree Go1, uma máquina quadrúpede de código aberto. Envolve treinar um robô em um ambiente simulado usando randomização de variáveis-chave: atrito, massa, amortecimento, deslocamento do centro de gravidade e outros parâmetros. Com base em diversas solicitações dos usuários, a IA gerou um código que descreve um sistema de recompensas e penalidades para o treinamento do robô em ambiente virtual. Ao final de cada simulação, a IA analisa quão bem o robô virtual lidou com a próxima tarefa e como seu desempenho pode ser melhorado. É importante que a rede neural seja capaz de gerar rapidamente cenários em grandes volumes e lançar sua execução simultaneamente.

A IA cria tarefas com valores máximos e mínimos de parâmetros em pontos de falha ou quebra do mecanismo, cujo cumprimento ou superação acarreta diminuição na pontuação para conclusão do cenário de treinamento. Os autores do estudo observam que são necessárias instruções de segurança adicionais para escrever corretamente o código de IA, caso contrário, a rede neural começa a “trapacear” durante a simulação em um esforço para atingir o desempenho máximo, o que no mundo real pode levar ao superaquecimento dos motores ou danos aos membros do robô. Num desses cenários não naturais, o robô virtual “descobriu” que poderia se mover mais rápido se desligasse uma das pernas e passasse a se mover sobre três.

Os pesquisadores instruíram a IA a tomar cuidado especial visto que o robô treinado seria testado no mundo real, então a rede neural criou funções de segurança adicionais para aspectos como suavidade de movimentos, orientação horizontal e altura do tronco, também levando em consideração a quantidade de torque para motores elétricos – não deve exceder os valores especificados. Como resultado, o sistema DrEureka lidou com o treinamento do robô melhor do que um humano: a máquina mostrou um aumento de 34% na velocidade de movimento e um aumento de 20% na distância percorrida em terrenos acidentados. Os pesquisadores explicaram esse resultado pela diferença de abordagens. Ao aprender um problema, a pessoa o divide em várias etapas e encontra uma solução para cada uma delas, enquanto o GPT ensina tudo de uma vez, e a pessoa claramente não é capaz disso.

Como resultado, o sistema DrEureka nos permitiu passar diretamente da simulação para o trabalho no mundo real. Os autores do projeto afirmam que poderiam melhorar ainda mais a eficiência da plataforma se conseguissem fornecer à IA feedback do mundo real – para isso, a rede neural precisaria estudar gravações de vídeo dos testes, não se limitando sozinho para analisar erros nos logs do sistema do robô. Uma pessoa média leva até 1,5 anos para aprender a andar, e apenas algumas conseguem andar em uma bola de ioga. O robô treinado por DrEureka lida com essa tarefa com eficácia.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *