A Apple publicou um relatório sobre os resultados de um estudo que explorou como grandes modelos de linguagem (LLMs, na sigla em inglês) podem analisar dados de áudio e movimento para obter informações sobre o que o usuário está fazendo.

Fonte da imagem: 9to5 Mac
O artigo publicado recentemente, “Using LLM for Post-Fusion of Multimodal Sensor Data for Activity Recognition” (Usando LLM para Pós-Fusão de Dados de Sensores Multimodais para Reconhecimento de Atividades), oferece insights sobre a abordagem da Apple para combinar análises baseadas em modelos de IA com dados de sensores tradicionais, visando compreender com mais precisão a atividade do usuário. Os pesquisadores acreditam que isso tem um potencial significativo para melhorar a precisão da análise de atividades, mesmo em casos onde os dados dos sensores, por si só, são insuficientes.
“Os fluxos de dados dos sensores fornecem informações valiosas sobre atividades e contexto entre aplicativos, embora a integração de informações adicionais possa ser um desafio. Demonstramos que grandes modelos de linguagem podem ser aproveitados para a classificação de atividades por meio da pós-fusão, com base em séries temporais, áudio e dados de movimento”, afirma o artigo da Apple.
Os pesquisadores selecionaram um subconjunto de dados do conjunto de dados Ego4D para reconhecimento de diversas atividades em diferentes contextos, como tarefas domésticas ou exercícios. Constatou-se que os grandes modelos de linguagem têm um desempenho bastante bom em tarefas que envolvem a identificação do que um usuário está fazendo, analisando sinais de áudio e movimento. Notavelmente, eles apresentam um bom desempenho mesmo sem serem especificamente treinados para essa tarefa. No entanto, se receberem apenas um exemplo para treinamento, sua precisão melhora significativamente de imediato. Observa-se que o modelo de aprendizado de máquina (LLM) no estudo processou não a gravação de áudio em si, mas uma descrição textual gerada pelo modelo.modelos de áudio e um modelo de movimento que recebe dados do acelerômetro e do giroscópio.

O estudo utilizou o conjunto de dados Ego4D, que apresenta perspectivas em primeira pessoa. Esses dados contêm milhares de horas de filmagens do mundo real, capturando uma variedade de situações, desde tarefas domésticas até esportes e atividades ao ar livre. “Criamos um conjunto de dados de atividades diárias a partir do conjunto de dados Ego4D, buscando atividades da vida diária nas descrições textuais fornecidas. O conjunto de dados resultante inclui amostras de 20 segundos de 12 atividades: passar aspirador de pó, cozinhar, lavar roupa, comer, jogar basquete, jogar futebol, brincar com animais de estimação, ler um livro, trabalhar no computador, lavar a louça, assistir TV e fazer musculação. Essas atividades foram escolhidas para abranger uma gama de tarefas domésticas e esportivas, com base em sua ocorrência generalizada no conjunto de dados original”, afirma o estudo.
Os pesquisadores processaram dados de áudio e movimento usando pequenos modelos de IA que geraram descrições textuais e previsões de categorias de atividades. Os dados foram então inseridos em diferentes modelos de linguagem latente (Gemini-2.5-pro e Qwen-32B) para avaliar sua capacidade de identificar atividades. A Apple comparou então o desempenho desses dois modelos de IA em diferentes situações: um recebeu uma lista de 12 atividades possíveis (conjunto fechado), enquanto o outro não recebeu nenhuma opção (conjunto aberto). Para cada teste, foram fornecidas diferentes combinações de transcrições de áudio em texto, rótulos de áudio, previsões de atividades e contexto adicional.

Modelos de linguagem de grande porte demonstraram resultados significativamente mais precisos do que modelos de referência que trabalham com apenas um único tipo de dado, especialmente em cenários complexos. A maior precisão foi alcançada ao trabalhar com um conjunto de dados fechado, no qual o modelo tinha que escolher uma entre 12 atividades. Ao trabalhar com um conjunto de dados aberto, os modelos de IA também apresentaram bom desempenho, mas, por vezes, suas respostas foram generalizadas em excesso ou imprecisas. Gemini-2.5-pro e Qwen-32B demonstraram resultados comparáveis, com ligeiras vantagens um sobre o outro em diferentes categorias, demonstrando a generalidade dessa abordagem.
A pesquisa da Apple demonstra que os modelos de IA podem servir como uma ferramenta poderosa e flexível para combinar e analisar dados multimodais com o mínimo de retreinamento. Isso pode levar à criação de sistemas mais inteligentes e sensíveis ao contexto em dispositivos móveis e wearables.
