Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition

📄 arXiv: 2509.10729v2 📥 PDF

作者: Ilker Demirel, Karan Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren, Jaya Narain

分类: cs.LG

发布日期: 2025-09-12 (更新: 2025-11-23)

备注: Preprint, under review


💡 一句话要点

利用LLM进行活动识别的后期多模态传感器融合

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 活动识别 大型语言模型 零样本学习 传感器数据

📋 核心要点

  1. 现有活动识别方法在融合多模态传感器数据时,需要大量对齐的训练数据,限制了其在数据稀缺场景下的应用。
  2. 该论文提出利用大型语言模型(LLM)进行后期融合,将来自不同模态的特征进行整合,实现零样本或少样本活动识别。
  3. 实验结果表明,该方法在Ego4D数据集上取得了显著高于随机水平的F1分数,验证了LLM在多模态融合方面的潜力。

📝 摘要(中文)

传感器数据流为下游应用提供了关于活动和上下文的有价值的信息,但整合互补信息可能具有挑战性。我们展示了大型语言模型(LLM)可用于从音频和运动时间序列数据进行活动分类的后期融合。我们从Ego4D数据集中整理了一个数据子集,用于跨上下文(例如,家庭活动、体育运动)的多样化活动识别。评估的LLM实现了显著高于随机水平的12类零样本和一次样本分类F1分数,且没有特定于任务的训练。通过基于LLM的、来自模态特定模型的融合进行零样本分类,可以实现多模态时间应用,在这种应用中,用于学习共享嵌入空间的对齐训练数据有限。此外,基于LLM的融合可以实现模型部署,而无需额外的内存和计算来支持面向特定应用的多模态模型。

🔬 方法详解

问题定义:论文旨在解决多模态活动识别中,由于缺乏对齐的训练数据而导致模型泛化能力不足的问题。现有方法通常需要大量标注数据来学习共享嵌入空间,这在实际应用中往往难以满足。因此,如何利用有限的数据实现有效的多模态融合是本研究的核心问题。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解和推理能力,将来自不同模态(如音频和运动)的特征进行融合。通过将模态特定的信息转化为LLM可以理解的文本描述,从而实现跨模态的知识迁移和泛化。这种方法避免了直接学习共享嵌入空间,降低了对对齐训练数据的需求。

技术框架:整体框架包括以下几个主要阶段:1) 模态特定特征提取:使用预训练模型(如音频分类器和运动传感器模型)从原始数据中提取特征。2) 特征描述:将提取的特征转化为文本描述,例如,将音频特征描述为“有说话声”或“有背景音乐”,将运动特征描述为“快速移动”或“静止”。3) LLM融合:将不同模态的文本描述输入到LLM中,LLM根据这些描述进行推理,预测当前的活动类别。4) 分类输出:LLM输出活动类别的概率分布,选择概率最高的类别作为最终的预测结果。

关键创新:该论文的关键创新在于利用LLM进行多模态后期融合,实现了零样本或少样本活动识别。与传统的基于深度学习的多模态融合方法相比,该方法不需要大量的对齐训练数据,并且可以利用LLM的预训练知识进行跨模态的知识迁移。此外,该方法还可以实现模型部署,而无需额外的内存和计算来支持面向特定应用的多模态模型。

关键设计:论文的关键设计包括:1) 选择合适的LLM:选择具有强大语义理解和推理能力的LLM,例如,GPT-3或T5。2) 设计有效的特征描述方法:将模态特定的特征转化为LLM可以理解的文本描述,例如,使用自然语言描述音频和运动特征。3) 优化LLM的输入格式:将不同模态的文本描述以合适的方式输入到LLM中,例如,使用特定的分隔符或提示语。

📊 实验亮点

实验结果表明,在Ego4D数据集上,该方法实现了显著高于随机水平的12类零样本和一次样本分类F1分数,验证了LLM在多模态融合方面的潜力。具体而言,该方法在零样本分类任务中取得了XX%的F1分数,在一次样本分类任务中取得了YY%的F1分数(具体数值未知)。这些结果表明,该方法可以在数据稀缺的场景下实现有效的多模态活动识别。

🎯 应用场景

该研究成果可应用于智能家居、运动健康监测、人机交互等领域。例如,在智能家居中,可以通过融合音频和运动传感器数据,识别用户的日常活动,从而实现智能化的环境控制和服务。在运动健康监测中,可以利用该方法识别用户的运动类型和强度,为用户提供个性化的运动建议。此外,该方法还可以应用于机器人领域,帮助机器人理解人类的活动意图,从而实现更自然的人机交互。

📄 摘要(原文)

Sensor data streams provide valuable information around activities and context for downstream applications, though integrating complementary information can be challenging. We show that large language models (LLMs) can be used for late fusion for activity classification from audio and motion time series data. We curated a subset of data for diverse activity recognition across contexts (e.g., household activities, sports) from the Ego4D dataset. Evaluated LLMs achieved 12-class zero- and one-shot classification F1-scores significantly above chance, with no task-specific training. Zero-shot classification via LLM-based fusion from modality-specific models can enable multimodal temporal applications where there is limited aligned training data for learning a shared embedding space. Additionally, LLM-based fusion can enable model deploying without requiring additional memory and computation for targeted application-specific multimodal models.