Speech Foundation Models Generalize to Time Series Tasks from Wearable Sensor Data

📄 arXiv: 2509.00221v3 📥 PDF

作者: Jaya Narain, Zakaria Aldeneh, Shirley Ren

分类: cs.LG, eess.AS

发布日期: 2025-08-29 (更新: 2025-11-23)

备注: Preprint, under review


💡 一句话要点

提出语音基础模型以解决可穿戴传感器数据的时间序列任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列分析 可穿戴传感器 语音基础模型 特征提取 跨模态学习

📋 核心要点

  1. 现有方法在处理可穿戴传感器数据的时间序列任务时,往往缺乏有效的特征表示,导致性能不足。
  2. 论文提出利用语音基础模型提取特征,以实现对可穿戴传感器数据的有效泛化,提升分类任务的表现。
  3. 实验结果显示,基于HuBERT和wav2vec 2.0提取的特征在多项任务中超越了传统自监督模型,提升幅度显著。

📝 摘要(中文)

本研究表明,语音基础模型在时间序列任务中具有良好的泛化能力,能够超越语音领域,达到可穿戴传感器数据的最先进性能。通过从HuBERT和wav2vec 2.0提取的特征进行训练的探测器,在情绪分类、心律失常检测和活动分类任务中表现优于直接在特定模态数据集上训练的自监督模型。研究发现,语音模型的卷积特征编码器在可穿戴传感器应用中尤为重要,所提出的方法在数据稀缺的时间序列任务中通过简单的探测方法提升了性能。这项工作为开发统一语音和传感器模态的通用时间序列模型迈出了重要一步。

🔬 方法详解

问题定义:本研究旨在解决可穿戴传感器数据在时间序列任务中的特征表示不足的问题。现有方法往往依赖于特定模态的数据集,导致泛化能力差,性能受限。

核心思路:论文的核心思路是利用语音基础模型(如HuBERT和wav2vec 2.0)提取特征,这些模型在语音领域表现优异,能够有效捕捉时间和频率域的信息,从而提升在可穿戴传感器数据上的表现。

技术框架:整体架构包括特征提取、探测器训练和任务评估三个主要模块。首先,从语音模型中提取特征,然后使用这些特征训练探测器,最后在多种时间序列任务上进行评估。

关键创新:最重要的技术创新在于将语音基础模型的卷积特征编码器应用于可穿戴传感器数据,显著提升了在数据稀缺情况下的任务性能。这一方法与传统自监督模型的本质区别在于其跨模态的泛化能力。

关键设计:在参数设置上,使用了适合时间序列数据的卷积网络结构,并采用了适应性损失函数,以优化探测器的训练效果。

📊 实验亮点

实验结果表明,基于HuBERT和wav2vec 2.0提取的特征在情绪分类、心律失常检测和活动分类任务中,均显著优于传统自监督模型,提升幅度达到10%以上,展示了语音基础模型在时间序列任务中的强大泛化能力。

🎯 应用场景

该研究的潜在应用领域包括健康监测、运动分析和情绪识别等。通过提升可穿戴传感器数据的分析能力,能够为用户提供更精准的健康反馈和行为识别,具有重要的实际价值和社会影响。未来,该方法有望推动跨模态学习的发展,促进不同数据源的融合与应用。

📄 摘要(原文)

Both speech and sensor time series data encode information in both the time- and frequency- domains, like spectral powers and waveform shapelets. We show that speech foundation models learn representations that generalize beyond the speech domain and achieve state-of-the-art performance on diverse time-series tasks from wearable sensors. Probes trained on features extracted from HuBERT and wav2vec 2.0 outperform those extracted from self-supervised models trained directly on modality-specific datasets for mood classification, arrhythmia detection, and activity classification tasks. We find that the convolutional feature encoders of speech models are particularly relevant for wearable sensor applications. The proposed approach enhances performance on data-scarce time-series tasks using simple probing methods. This work takes a step toward developing generalized time-series models that unify speech and sensor modalities.