A IA ensinou um cão-robô a se equilibrar em uma bola – ele treina robôs com mais eficiência do que humanos

Um grupo de cientistas da Universidade da Pensilvânia desenvolveu um sistema chamado DrEureka, projetado para treinar robôs usando grandes modelos de linguagem de inteligência artificial como OpenAI GPT-4. Acontece que este é um método mais eficaz do que uma sequência de tarefas no mundo real, mas requer atenção especial de uma pessoa devido às peculiaridades do “pensamento” da IA.

Fonte da imagem: eureka-research.github.io

A plataforma DrEureka (Domain Randomization Eureka) confirmou seu desempenho usando o exemplo do robô Unitree Go1, uma máquina quadrúpede de código aberto. Envolve treinar um robô em um ambiente simulado usando randomização de variáveis-chave: atrito, massa, amortecimento, deslocamento do centro de gravidade e outros parâmetros. Com base em diversas solicitações dos usuários, a IA gerou um código que descreve um sistema de recompensas e penalidades para o treinamento do robô em ambiente virtual. Ao final de cada simulação, a IA analisa quão bem o robô virtual lidou com a próxima tarefa e como seu desempenho pode ser melhorado. É importante que a rede neural seja capaz de gerar rapidamente cenários em grandes volumes e lançar sua execução simultaneamente.

A IA cria tarefas com valores máximos e mínimos de parâmetros em pontos de falha ou quebra do mecanismo, cujo cumprimento ou superação acarreta diminuição na pontuação para conclusão do cenário de treinamento. Os autores do estudo observam que são necessárias instruções de segurança adicionais para escrever corretamente o código de IA, caso contrário, a rede neural começa a “trapacear” durante a simulação em um esforço para atingir o desempenho máximo, o que no mundo real pode levar ao superaquecimento dos motores ou danos aos membros do robô. Num desses cenários não naturais, o robô virtual “descobriu” que poderia se mover mais rápido se desligasse uma das pernas e passasse a se mover sobre três.

Os pesquisadores instruíram a IA a tomar cuidado especial visto que o robô treinado seria testado no mundo real, então a rede neural criou funções de segurança adicionais para aspectos como suavidade de movimentos, orientação horizontal e altura do tronco, também levando em consideração a quantidade de torque para motores elétricos – não deve exceder os valores especificados. Como resultado, o sistema DrEureka lidou com o treinamento do robô melhor do que um humano: a máquina mostrou um aumento de 34% na velocidade de movimento e um aumento de 20% na distância percorrida em terrenos acidentados. Os pesquisadores explicaram esse resultado pela diferença de abordagens. Ao aprender um problema, a pessoa o divide em várias etapas e encontra uma solução para cada uma delas, enquanto o GPT ensina tudo de uma vez, e a pessoa claramente não é capaz disso.

Como resultado, o sistema DrEureka nos permitiu passar diretamente da simulação para o trabalho no mundo real. Os autores do projeto afirmam que poderiam melhorar ainda mais a eficiência da plataforma se conseguissem fornecer à IA feedback do mundo real – para isso, a rede neural precisaria estudar gravações de vídeo dos testes, não se limitando sozinho para analisar erros nos logs do sistema do robô. Uma pessoa média leva até 1,5 anos para aprender a andar, e apenas algumas conseguem andar em uma bola de ioga. O robô treinado por DrEureka lida com essa tarefa com eficácia.

avalanche

Postagens recentes

A aventura de montanhismo radical Cairn, dos criadores de Furi, ultrapassou a marca de 200.000 cópias vendidas em apenas três dias.

Os desenvolvedores do estúdio francês The Game Bakers (Furi, Haven) relataram sucesso de vendas para…

4 horas atrás

Musk confirmou negociações de fusão entre SpaceX e xAI — IA provou ser voraz demais

Elon Musk confirmou que está negociando ativamente uma fusão entre suas empresas, SpaceX e xAI.…

5 horas atrás

Não se preocupe com a trilha sonora: o compositor de The Witcher 3 escreverá músicas para The Witcher 4.

O estúdio polonês CD Projekt Red não tem pressa em compartilhar detalhes sobre o aguardado…

7 horas atrás

A Microsoft restaurou o ícone de login por senha na tela de bloqueio do Windows 11, que havia desaparecido em agosto.

Seis meses depois, a Microsoft corrigiu um problema conhecido em que a opção de login…

10 horas atrás

Uma fonte interna decepcionou os fãs que esperavam ver Ada Wong e Chris Redfield em Resident Evil Requiem.

O lançamento do ambicioso jogo de terror Resident Evil Requiem marcará o grande retorno do…

14 horas atrás

O Samsung Galaxy S26 Ultra com caneta stylus aparece em imagem de pré-anúncio.

No final de janeiro, foi noticiado que os smartphones da série Samsung Galaxy S26 provavelmente…

16 horas atrás