A Xiaomi criou “inteligência” para robôs: um modelo de IA com 4,7 bilhões de parâmetros que combina visão, linguagem e ações.

A Xiaomi, empresa chinesa conhecida principalmente como fabricante de dispositivos móveis, equipamentos para casas inteligentes e, agora, veículos elétricos, deixou sua marca. Ela decidiu investir em pesquisa na área da robótica.

Fonte da imagem: xiaomi-robotics-0.github.io

A empresa apresentou o Xiaomi-Robotics-0, um modelo de inteligência artificial de código aberto que combina componentes visuais, de linguagem e de ação; ele possui 4,7 bilhões de parâmetros. O modelo combina reconhecimento de imagem visual, compreensão de linguagem e a capacidade de executar ações em tempo real, o que, como observou a Xiaomi, constitui o núcleo da “inteligência física”. Ele já estabeleceu diversos recordes tanto em simulações quanto em testes no mundo real.

Os modelos de IA para robôs normalmente operam em um ciclo fechado: percepção, tomada de decisão e execução. O robô vê objetos no mundo ao seu redor, entende o que é necessário dele, formula um plano de ação e o executa. O Xiaomi-Robotics-0 foi criado para equilibrar a compreensão ampla com o controle motor preciso. Para alcançar isso, é utilizada uma arquitetura Mixture-of-Transformers (MoT), que ajuda a distribuir as responsabilidades entre dois componentes principais.

O primeiro componente é o modelo de linguagem visual (VLM), que funciona como o “cérebro”. Ele é treinado para interpretar comandos humanos, incluindo comandos vagos como “por favor, dobre a toalha”, e para compreender relações espaciais com base em pistas visuais de alta resolução. Essa parte é responsável pela detecção de objetos, respondendo a perguntas no domínio visual e realizando raciocínio lógico. A Xiaomi chama o segundo componente de Especialista em Ações. Essa parte do modelo utiliza uma arquitetura de Transformador de Difusão (DiT). Ele não executa uma única ação por vez, mas gera uma sequência de ações.Sequência de ações utilizando técnicas de correspondência de fluxo, o que garante precisão e suavidade de movimento.

Uma das fraquezas dos VLMs (Modelos de Linguagem Virtual) é que, ao serem treinados para realizar operações físicas, tendem a perder parte da compreensão previamente desenvolvida. Os engenheiros da Xiaomi conseguiram superar esse problema treinando o modelo simultaneamente com dados multimodais e de ação. Em teoria, isso significa que tal sistema pode raciocinar sobre objetos no mundo ao redor e aprender a navegar por ele simultaneamente. O processo de treinamento envolve várias etapas. Primeiro, um mecanismo de “sugestão de ação” força o VLM a prever possíveis distribuições de ações ao interpretar imagens — isso ajuda a alinhar a representação interna do modelo sobre o que ele vê com a forma como as operações são realizadas. Depois disso, o componente VLM é suspenso e o DiT (Tecnologia de Inteligência Diferencial) passa por um treinamento separado para gerar sequências precisas a partir do ruído, com base em características-chave em vez de tokens linguísticos discretos.

A Xiaomi conseguiu resolver o problema da latência de inferência — a pausa entre as previsões do modelo e o movimento físico do robô. Para isso, implementaram a inferência assíncrona, separando os cálculos do modelo das ações do robô: os movimentos permanecem contínuos, mesmo que o modelo precise de tempo adicional para processar as informações. Para melhorar a estabilidade, utiliza-se a técnica Clean Action Prefix, que reverte o modelo para uma ação previamente prevista, garantindo movimentos suaves e sem atrasos. Uma máscara de atenção direciona o modelo para a sequência visual atual, minimizando a importância de estados passados ​​e tornando o robô responsivo a mudanças repentinas no ambiente.

Nas simulações LIBERO, CALVIN e SimplerEnv, o modelo Xiaomi-Robotics-0O desenvolvedor relatou que o modelo superou aproximadamente 30 outros. Em experimentos práticos, ele foi testado em um robô com dois manipuladores: em tarefas que envolviam sequências de ações, como dobrar toalhas e desmontar blocos de construção, o robô demonstrou coordenação olho-mão estável, manipulando objetos rígidos e macios com igual eficácia. O modelo conseguiu, de fato, manter fortes capacidades visuais e linguísticas, especialmente em tarefas que envolviam interação física.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Valve implementou medidas de proteção contra revendedores e prometeu novos lotes de Steam Controllers.

A demanda pelo Steam Controller foi tão alta que a Valve esgotou o primeiro lote…

3 horas atrás

Uma queda catastrófica nas vendas de placas-mãe está se aproximando, já que os usuários se recusam a atualizar seus PCs.

Segundo uma reportagem do DigiTimes, o mercado de placas-mãe para PCs está passando por uma…

3 horas atrás

O Telegram recebeu uma grande atualização de IA — agora é possível invocar bots em qualquer chat, além de outros novos recursos.

O Telegram recebeu uma grande atualização, quase inteiramente dedicada à IA e à automação. O…

5 horas atrás

A GeIL anunciou módulos DDR5 que operam a 8000 MT/s sem overclocking.

A GeIL apresentou os módulos de memória Spear V DDR5, capazes de operar a 8000…

6 horas atrás

O aplicativo Fitbit agora se tornou o Google Health e poderá coletar dados de saúde até mesmo do Apple Health.

A Fitbit tem sido uma das maiores fabricantes de dispositivos vestíveis por quase duas décadas,…

6 horas atrás

A AMD lança o acelerador de IA Instinct MI350P com 144 GB de HBM3E, PCIe 5.0 x16 e consumo de 600 W.

A AMD lançou o Instinct MI350P, um acelerador gráfico especializado em formato de placa de…

6 horas atrás