Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Xiaomi criou “inteligência” para robôs: um modelo de IA com 4,7 bilhões de parâmetros que combina visão, linguagem e ações.

A Xiaomi, empresa chinesa conhecida principalmente como fabricante de dispositivos móveis, equipamentos para casas inteligentes e, agora, veículos elétricos, deixou sua marca. Ela decidiu investir em pesquisa na área da robótica.

Fonte da imagem: xiaomi-robotics-0.github.io

A empresa apresentou o Xiaomi-Robotics-0, um modelo de inteligência artificial de código aberto que combina componentes visuais, de linguagem e de ação; ele possui 4,7 bilhões de parâmetros. O modelo combina reconhecimento de imagem visual, compreensão de linguagem e a capacidade de executar ações em tempo real, o que, como observou a Xiaomi, constitui o núcleo da “inteligência física”. Ele já estabeleceu diversos recordes tanto em simulações quanto em testes no mundo real.

Os modelos de IA para robôs normalmente operam em um ciclo fechado: percepção, tomada de decisão e execução. O robô vê objetos no mundo ao seu redor, entende o que é necessário dele, formula um plano de ação e o executa. O Xiaomi-Robotics-0 foi criado para equilibrar a compreensão ampla com o controle motor preciso. Para alcançar isso, é utilizada uma arquitetura Mixture-of-Transformers (MoT), que ajuda a distribuir as responsabilidades entre dois componentes principais.

O primeiro componente é o modelo de linguagem visual (VLM), que funciona como o “cérebro”. Ele é treinado para interpretar comandos humanos, incluindo comandos vagos como “por favor, dobre a toalha”, e para compreender relações espaciais com base em pistas visuais de alta resolução. Essa parte é responsável pela detecção de objetos, respondendo a perguntas no domínio visual e realizando raciocínio lógico. A Xiaomi chama o segundo componente de Especialista em Ações. Essa parte do modelo utiliza uma arquitetura de Transformador de Difusão (DiT). Ele não executa uma única ação por vez, mas gera uma sequência de ações.Sequência de ações utilizando técnicas de correspondência de fluxo, o que garante precisão e suavidade de movimento.

Uma das fraquezas dos VLMs (Modelos de Linguagem Virtual) é que, ao serem treinados para realizar operações físicas, tendem a perder parte da compreensão previamente desenvolvida. Os engenheiros da Xiaomi conseguiram superar esse problema treinando o modelo simultaneamente com dados multimodais e de ação. Em teoria, isso significa que tal sistema pode raciocinar sobre objetos no mundo ao redor e aprender a navegar por ele simultaneamente. O processo de treinamento envolve várias etapas. Primeiro, um mecanismo de “sugestão de ação” força o VLM a prever possíveis distribuições de ações ao interpretar imagens — isso ajuda a alinhar a representação interna do modelo sobre o que ele vê com a forma como as operações são realizadas. Depois disso, o componente VLM é suspenso e o DiT (Tecnologia de Inteligência Diferencial) passa por um treinamento separado para gerar sequências precisas a partir do ruído, com base em características-chave em vez de tokens linguísticos discretos.

A Xiaomi conseguiu resolver o problema da latência de inferência — a pausa entre as previsões do modelo e o movimento físico do robô. Para isso, implementaram a inferência assíncrona, separando os cálculos do modelo das ações do robô: os movimentos permanecem contínuos, mesmo que o modelo precise de tempo adicional para processar as informações. Para melhorar a estabilidade, utiliza-se a técnica Clean Action Prefix, que reverte o modelo para uma ação previamente prevista, garantindo movimentos suaves e sem atrasos. Uma máscara de atenção direciona o modelo para a sequência visual atual, minimizando a importância de estados passados e tornando o robô responsivo a mudanças repentinas no ambiente.

Nas simulações LIBERO, CALVIN e SimplerEnv, o modelo Xiaomi-Robotics-0O desenvolvedor relatou que o modelo superou aproximadamente 30 outros. Em experimentos práticos, ele foi testado em um robô com dois manipuladores: em tarefas que envolviam sequências de ações, como dobrar toalhas e desmontar blocos de construção, o robô demonstrou coordenação olho-mão estável, manipulando objetos rígidos e macios com igual eficácia. O modelo conseguiu, de fato, manter fortes capacidades visuais e linguísticas, especialmente em tarefas que envolviam interação física.

admin

Próximo O iPhone dobrável vai revolucionar o mercado, com o formato de livro na liderança. »

Anterior « A OpenAI desfez a equipe que explicou sua missão ao mundo.

Deixar comentário

Publicado por

admin

5 meses atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Google renomeia AI notebook NotebookLM – agora é Gemini Notebook

O Google mudou o nome de sua ferramenta de mineração de dados, NotebookLM. Agora é…

2 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Spintrônica: o que aconteceu? / Offsyanka.

\nA carga elétrica serviu fielmente a humanidade, alimentando a operação de sistemas elétricos semicondutores, por…

2 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Elon Musk comprou empresa de energia por US$ 1 bilhão para abastecer a gigafábrica Colossus AI

\nElon Musk adquiriu discretamente a empresa de energia APR Energy, que opera uma frota de…

3 horas atrás

Jogos

Hot Wheels Infinite Rush saiu de Silent Hill: Townfall e Control Resonant – um jogo de arcade de corrida em miniatura será lançado duas semanas antes

\nDesenvolvido pelo estúdio italiano Milestone (séries MotoGP, MXGP, Ride), o arcade de corrida Hot Wheels…

4 horas atrás

Manipuladores, dispositivos gráficos de entrada

OpenAI esgotou todos os teclados Codex Micro em menos de 24 horas

\nO teclado compacto Codex Micro, resultado de um desenvolvimento conjunto da OpenAI e do fabricante…

5 horas atrás

Jogos

“O confronto um-a-um é ótimo”: os desenvolvedores de Call of Duty: Modern Warfare 4 não tiveram medo da concorrência com GTA VI

\nO codiretor do estúdio americano Infinity Ward, Mark Grigsby, em entrevista ao Destructoid, falou sobre…

6 horas atrás