A Xiaomi criou “inteligência” para robôs: um modelo de IA com 4,7 bilhões de parâmetros que combina visão, linguagem e ações.

A Xiaomi, empresa chinesa conhecida principalmente como fabricante de dispositivos móveis, equipamentos para casas inteligentes e, agora, veículos elétricos, deixou sua marca. Ela decidiu investir em pesquisa na área da robótica.

Fonte da imagem: xiaomi-robotics-0.github.io

A empresa apresentou o Xiaomi-Robotics-0, um modelo de inteligência artificial de código aberto que combina componentes visuais, de linguagem e de ação; ele possui 4,7 bilhões de parâmetros. O modelo combina reconhecimento de imagem visual, compreensão de linguagem e a capacidade de executar ações em tempo real, o que, como observou a Xiaomi, constitui o núcleo da “inteligência física”. Ele já estabeleceu diversos recordes tanto em simulações quanto em testes no mundo real.

Os modelos de IA para robôs normalmente operam em um ciclo fechado: percepção, tomada de decisão e execução. O robô vê objetos no mundo ao seu redor, entende o que é necessário dele, formula um plano de ação e o executa. O Xiaomi-Robotics-0 foi criado para equilibrar a compreensão ampla com o controle motor preciso. Para alcançar isso, é utilizada uma arquitetura Mixture-of-Transformers (MoT), que ajuda a distribuir as responsabilidades entre dois componentes principais.

O primeiro componente é o modelo de linguagem visual (VLM), que funciona como o “cérebro”. Ele é treinado para interpretar comandos humanos, incluindo comandos vagos como “por favor, dobre a toalha”, e para compreender relações espaciais com base em pistas visuais de alta resolução. Essa parte é responsável pela detecção de objetos, respondendo a perguntas no domínio visual e realizando raciocínio lógico. A Xiaomi chama o segundo componente de Especialista em Ações. Essa parte do modelo utiliza uma arquitetura de Transformador de Difusão (DiT). Ele não executa uma única ação por vez, mas gera uma sequência de ações.Sequência de ações utilizando técnicas de correspondência de fluxo, o que garante precisão e suavidade de movimento.

Uma das fraquezas dos VLMs (Modelos de Linguagem Virtual) é que, ao serem treinados para realizar operações físicas, tendem a perder parte da compreensão previamente desenvolvida. Os engenheiros da Xiaomi conseguiram superar esse problema treinando o modelo simultaneamente com dados multimodais e de ação. Em teoria, isso significa que tal sistema pode raciocinar sobre objetos no mundo ao redor e aprender a navegar por ele simultaneamente. O processo de treinamento envolve várias etapas. Primeiro, um mecanismo de “sugestão de ação” força o VLM a prever possíveis distribuições de ações ao interpretar imagens — isso ajuda a alinhar a representação interna do modelo sobre o que ele vê com a forma como as operações são realizadas. Depois disso, o componente VLM é suspenso e o DiT (Tecnologia de Inteligência Diferencial) passa por um treinamento separado para gerar sequências precisas a partir do ruído, com base em características-chave em vez de tokens linguísticos discretos.

A Xiaomi conseguiu resolver o problema da latência de inferência — a pausa entre as previsões do modelo e o movimento físico do robô. Para isso, implementaram a inferência assíncrona, separando os cálculos do modelo das ações do robô: os movimentos permanecem contínuos, mesmo que o modelo precise de tempo adicional para processar as informações. Para melhorar a estabilidade, utiliza-se a técnica Clean Action Prefix, que reverte o modelo para uma ação previamente prevista, garantindo movimentos suaves e sem atrasos. Uma máscara de atenção direciona o modelo para a sequência visual atual, minimizando a importância de estados passados ​​e tornando o robô responsivo a mudanças repentinas no ambiente.

Nas simulações LIBERO, CALVIN e SimplerEnv, o modelo Xiaomi-Robotics-0O desenvolvedor relatou que o modelo superou aproximadamente 30 outros. Em experimentos práticos, ele foi testado em um robô com dois manipuladores: em tarefas que envolviam sequências de ações, como dobrar toalhas e desmontar blocos de construção, o robô demonstrou coordenação olho-mão estável, manipulando objetos rígidos e macios com igual eficácia. O modelo conseguiu, de fato, manter fortes capacidades visuais e linguísticas, especialmente em tarefas que envolviam interação física.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Anthropic prometeu que seus centros de dados com IA não afetarão as contas de luz dos cidadãos comuns, mas há um porém.

A startup de IA, Anthropic, prometeu compensar qualquer aumento nas tarifas de eletricidade para consumidores…

14 minutos atrás

A Meta✴ anunciou a construção de mais um complexo de data centers em escala de gigawatts, avaliado em US$ 10 bilhões.

A gigante de TI Meta✴ iniciou a construção de um campus de data center de…

2 horas atrás

A OpenAI começou a perder pesquisadores depois que anúncios apareceram no ChatGPT.

A pesquisadora da OpenAI, Zoë Hitzig, pediu demissão da empresa no mesmo dia em que…

2 horas atrás

Kingdom Come: Deliverance 2 comemora seu primeiro aniversário com uma “conquista monumental”

O grupo sueco Embracer Group, em seu relatório referente ao terceiro trimestre do ano fiscal…

4 horas atrás