A IA ensinou um cão-robô a se equilibrar em uma bola – ele treina robôs com mais eficiência do que humanos

Um grupo de cientistas da Universidade da Pensilvânia desenvolveu um sistema chamado DrEureka, projetado para treinar robôs usando grandes modelos de linguagem de inteligência artificial como OpenAI GPT-4. Acontece que este é um método mais eficaz do que uma sequência de tarefas no mundo real, mas requer atenção especial de uma pessoa devido às peculiaridades do “pensamento” da IA.

Fonte da imagem: eureka-research.github.io

A plataforma DrEureka (Domain Randomization Eureka) confirmou seu desempenho usando o exemplo do robô Unitree Go1, uma máquina quadrúpede de código aberto. Envolve treinar um robô em um ambiente simulado usando randomização de variáveis-chave: atrito, massa, amortecimento, deslocamento do centro de gravidade e outros parâmetros. Com base em diversas solicitações dos usuários, a IA gerou um código que descreve um sistema de recompensas e penalidades para o treinamento do robô em ambiente virtual. Ao final de cada simulação, a IA analisa quão bem o robô virtual lidou com a próxima tarefa e como seu desempenho pode ser melhorado. É importante que a rede neural seja capaz de gerar rapidamente cenários em grandes volumes e lançar sua execução simultaneamente.

A IA cria tarefas com valores máximos e mínimos de parâmetros em pontos de falha ou quebra do mecanismo, cujo cumprimento ou superação acarreta diminuição na pontuação para conclusão do cenário de treinamento. Os autores do estudo observam que são necessárias instruções de segurança adicionais para escrever corretamente o código de IA, caso contrário, a rede neural começa a “trapacear” durante a simulação em um esforço para atingir o desempenho máximo, o que no mundo real pode levar ao superaquecimento dos motores ou danos aos membros do robô. Num desses cenários não naturais, o robô virtual “descobriu” que poderia se mover mais rápido se desligasse uma das pernas e passasse a se mover sobre três.

Os pesquisadores instruíram a IA a tomar cuidado especial visto que o robô treinado seria testado no mundo real, então a rede neural criou funções de segurança adicionais para aspectos como suavidade de movimentos, orientação horizontal e altura do tronco, também levando em consideração a quantidade de torque para motores elétricos – não deve exceder os valores especificados. Como resultado, o sistema DrEureka lidou com o treinamento do robô melhor do que um humano: a máquina mostrou um aumento de 34% na velocidade de movimento e um aumento de 20% na distância percorrida em terrenos acidentados. Os pesquisadores explicaram esse resultado pela diferença de abordagens. Ao aprender um problema, a pessoa o divide em várias etapas e encontra uma solução para cada uma delas, enquanto o GPT ensina tudo de uma vez, e a pessoa claramente não é capaz disso.

Como resultado, o sistema DrEureka nos permitiu passar diretamente da simulação para o trabalho no mundo real. Os autores do projeto afirmam que poderiam melhorar ainda mais a eficiência da plataforma se conseguissem fornecer à IA feedback do mundo real – para isso, a rede neural precisaria estudar gravações de vídeo dos testes, não se limitando sozinho para analisar erros nos logs do sistema do robô. Uma pessoa média leva até 1,5 anos para aprender a andar, e apenas algumas conseguem andar em uma bola de ioga. O robô treinado por DrEureka lida com essa tarefa com eficácia.

avalanche

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

1 dia atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

1 dia atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

1 dia atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

1 dia atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

1 dia atrás