Desenvolvedores da Microsoft Research apresentaram um modelo de IA de linguagem multimodal, o Magma, que é capaz de processar dados visuais e de texto para controlar interfaces de software e sistemas robóticos. Se o algoritmo for aprovado pela Microsoft após os testes, poderá ser um passo importante para a criação de uma IA multimodal universal que pode funcionar tanto no espaço digital quanto no real.

Uma demonstração do Magma controlando um braço robótico / Fonte da imagem: Microsoft Research
A Microsoft afirma que o Magma é o primeiro modelo de IA que pode não apenas processar dados multimodais (por exemplo, texto, imagens, vídeo), mas também executar ações com base neles, seja navegando em uma interface de usuário ou manipulando objetos físicos. O algoritmo Magma foi desenvolvido por meio de um esforço colaborativo entre desenvolvedores da Microsoft, KAIST, Universidade de Maryland, Universidade de Wisconsin-Madison e Universidade de Washington.
Anteriormente, foram implementados projetos na área de robótica, cuja base eram grandes modelos de linguagem (LLM). Esses trabalhos incluem os projetos PALM-E e RT-2 do Google ou ChatGPT for Robotics da Microsoft, onde sistemas de IA foram usados para controlar interfaces de software.
Um diagrama de combinação demonstrando as capacidades do Magma / Fonte da imagem: Microsoft Research
Ao contrário de muitos algoritmos multimodais existentes que exigem modelos separados para percepção e controle, o Magma combina esses recursos em um único modelo de IA central. A Microsoft posiciona o Magma como um passo significativo para a criação de um agente de IA unificado, ou seja, um sistema que pode desenvolver planos de ação de forma autônoma e executar tarefas de várias etapas em nome de um humano, em vez de simplesmente responder perguntas sobre o que vê.
«Dado o objetivo descrito, Magma é capaz de formular planos e executar ações para alcançá-los. Ao transferir com eficiência conhecimento extraído de dados visuais e de linguagem disponíveis gratuitamente, o Magma combina algoritmos verbais, espaciais e temporais para navegar em tarefas e ambientes complexos”, disseram os pesquisadores da Microsoft em um comunicado.
Fonte da imagem: Microsoft Research
O modelo de IA da Magma inclui dois componentes técnicos: Conjunto de Marcas (identifica objetos manipuláveis em um ambiente atribuindo rótulos digitais a elementos interativos, como botões pressionáveis em uma interface de usuário ou objetos agarráveis no espaço de trabalho de um robô) e Rastreamento de Marcas (permite que o algoritmo execute tarefas como navegar em interfaces de usuário ou controlar braços robóticos para agarrar e mover objetos).
Um dos participantes do projeto disse que o nome do algoritmo Magma significa M(ultimodal) Ag(entic) M(odel) na Microsoft (Rese)A(rch). Em sua descrição do algoritmo, a Microsoft afirma que o Magma-8B demonstra resultados competitivos em benchmarks, apresentando altos resultados em tarefas como navegação em interfaces de usuário e manipulação de robôs.
Assim, no benchmark VQAv2, o algoritmo Magma recebeu 80,0 pontos para respostas a perguntas visuais, valor superior ao resultado do GPT-4V (77,2 pontos), mas inferior ao resultado do LLaVA-Next (81,8 pontos). A pontuação de 87,4 pontos do algoritmo POPE é atualmente a melhor entre os modelos de IA comparados. O Magma é considerado superior ao OpenVLA na área de manipulação de robôs.
Fonte da imagem: Microsoft Research
De acordo com os desenvolvedores, o Magma difere de seus equivalentes como o GPT-4V porque vai além da chamada “inteligência verbal” e inclui “inteligência espacial”, ou seja, a capacidade de planejar e executar ações. Ao treinar com uma mistura de imagens, vídeos, dados robóticos e interações de interface de usuário, o Magma é essencialmente um agente de IA multimodal completo, em vez de apenas um modelo perceptual.
Como todos os modelos de IA, o Magma não é perfeito. A documentação da Microsoft indica que o algoritmo ainda enfrenta limitações técnicas ao tomar decisões complexas passo a passo que exigem a execução de várias ações ao longo do tempo. A Microsoft continua trabalhando para melhorar o algoritmo. A gigante do software planeja disponibilizar o código-fonte e outras documentações do Magma no GitHub para que pesquisadores terceirizados possam usar o trabalho para implementar seus próprios projetos.