ActivityNarrated: An Open-Ended Narrative Paradigm for Wearable Human Activity Understanding

📄 arXiv: 2604.00767v1 📥 PDF

作者: Lala Shakti Swarup Ray, Mengxi Liu, Alcina Pinto, Deepika Gurung, Daniel Geissler, Paul Lukowoicz, Bo Zhou

分类: cs.LG

发布日期: 2026-04-01


💡 一句话要点

提出ActivityNarrated框架,以开放式叙事范式提升可穿戴设备的人类活动理解能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可穿戴设备 人体活动识别 开放词汇 自然语言叙事 传感器融合

📋 核心要点

  1. 现有可穿戴HAR主要依赖封闭集分类,无法有效处理现实世界中开放式、个性化的活动。
  2. 提出ActivityNarrated框架,通过传感器数据与自然语言叙事的对齐,实现开放词汇环境下的活动理解。
  3. 实验表明,该方法在跨参与者评估中Macro-F1达到65.3%,显著优于传统封闭集方法(31-34%)。

📝 摘要(中文)

可穿戴人体活动识别(HAR)取得了稳步进展,但大多数进展仍依赖于封闭集分类,这限制了实际应用。实际上,人类活动是开放式的、无脚本的、个性化的,并且通常是组合的,以叙事的方式展开,而不是固定类别的实例。我们认为,解决这一差距不仅仅需要扩展数据集或模型,还需要从根本上转变可穿戴HAR的制定、监督和评估方式。本文展示了如何通过将可穿戴传感器数据与开放词汇设置中的自然语言描述对齐来建模开放式活动叙事。我们的框架有三个核心组成部分。首先,我们引入了一种自然的数据收集和标注流程,将多位置可穿戴传感与自由形式、时间对齐的叙事描述相结合,允许活动语义在没有预定义词汇的情况下出现。其次,我们定义了一个基于检索的评估框架,用于衡量传感器数据和语言之间的语义对齐,从而在没有固定类别的情况下进行有原则的评估,同时也包含了封闭集分类作为一种特殊情况。第三,我们提出了一种语言条件学习架构,支持对可变长度传感器流和异构传感器位置进行传感器到文本的推理。实验表明,使用固定标签目标训练的模型在实际可变性下会急剧退化,而开放词汇传感器-语言对齐会产生鲁棒且语义上有根据的表示。一旦学习了这种对齐,封闭集活动识别就变成了一个简单的下游任务。在跨参与者评估中,我们的方法实现了65.3%的Macro-F1,而强大的封闭集HAR基线为31-34%。这些结果表明,开放式叙事建模是实际可穿戴HAR的实用且有效的基础。

🔬 方法详解

问题定义:现有可穿戴人体活动识别(HAR)方法主要依赖于封闭集分类,即预先定义好一组固定的活动类别。然而,现实世界中的人类活动是开放式的、无脚本的、个性化的,并且常常是组合的,难以用固定的类别来完全描述。这种局限性导致现有方法在实际应用中表现不佳,无法泛化到新的、未知的活动。

核心思路:本文的核心思路是将可穿戴传感器数据与自然语言叙事对齐,从而在开放词汇环境中理解人类活动。通过学习传感器数据和自然语言描述之间的语义对应关系,模型可以理解活动的含义,而无需预先定义活动类别。这种方法能够更好地适应现实世界中活动的复杂性和多样性。

技术框架:ActivityNarrated框架包含三个主要组成部分:1) 数据收集和标注流程:使用多位置可穿戴传感器收集数据,并使用自由形式的自然语言描述对活动进行标注,实现传感器数据与时间对齐的叙事描述。2) 评估框架:采用基于检索的评估方法,衡量传感器数据和语言描述之间的语义对齐程度,从而在没有固定类别的情况下进行评估。3) 学习架构:提出了一种语言条件学习架构,支持对可变长度的传感器流和异构传感器位置进行传感器到文本的推理。

关键创新:该方法最重要的创新点在于将自然语言叙事引入可穿戴HAR领域,从而实现了开放词汇环境下的活动理解。与传统的封闭集分类方法相比,该方法能够更好地处理现实世界中活动的复杂性和多样性,并且能够泛化到新的、未知的活动。此外,基于检索的评估框架也提供了一种新的评估方法,可以在没有固定类别的情况下评估模型的性能。

关键设计:数据收集方面,采用了多位置的可穿戴传感器,以获取更丰富的活动信息。标注方面,采用了自由形式的自然语言描述,以捕捉活动的细粒度语义。学习架构方面,采用了语言条件学习,将自然语言描述作为条件,引导模型学习传感器数据和活动语义之间的对应关系。损失函数的设计目标是最大化传感器数据和对应自然语言描述之间的相似度,同时最小化与其他不相关描述之间的相似度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ActivityNarrated框架在跨参与者评估中取得了显著的性能提升。该方法实现了65.3%的Macro-F1,而传统的封闭集HAR基线方法的Macro-F1仅为31-34%。这表明,开放式叙事建模是实际可穿戴HAR的实用且有效的基础,能够更好地处理现实世界中活动的复杂性和多样性。

🎯 应用场景

该研究成果可应用于智能家居、健康监测、人机交互等领域。例如,智能家居系统可以根据用户的活动叙事自动调整环境设置;健康监测设备可以根据用户的活动模式提供个性化的健康建议;人机交互系统可以根据用户的活动意图提供更自然、更智能的交互方式。该研究为开发更智能、更人性化的可穿戴设备和应用奠定了基础。

📄 摘要(原文)

Wearable HAR has improved steadily, but most progress still relies on closed-set classification, which limits real-world use. In practice, human activity is open-ended, unscripted, personalized, and often compositional, unfolding as narratives rather than instances of fixed classes. We argue that addressing this gap does not require simply scaling datasets or models. It requires a fundamental shift in how wearable HAR is formulated, supervised, and evaluated. This work shows how to model open-ended activity narratives by aligning wearable sensor data with natural-language descriptions in an open-vocabulary setting. Our framework has three core components. First, we introduce a naturalistic data collection and annotation pipeline that combines multi-position wearable sensing with free-form, time-aligned narrative descriptions of ongoing behavior, allowing activity semantics to emerge without a predefined vocabulary. Second, we define a retrieval-based evaluation framework that measures semantic alignment between sensor data and language, enabling principled evaluation without fixed classes while also subsuming closed-set classification as a special case. Third, we present a language-conditioned learning architecture that supports sensor-to-text inference over variable-length sensor streams and heterogeneous sensor placements. Experiments show that models trained with fixed-label objectives degrade sharply under real-world variability, while open-vocabulary sensor-language alignment yields robust and semantically grounded representations. Once this alignment is learned, closed-set activity recognition becomes a simple downstream task. Under cross-participant evaluation, our method achieves 65.3% Macro-F1, compared with 31-34% for strong closed-set HAR baselines. These results establish open-ended narrative modeling as a practical and effective foundation for real-world wearable HAR.