UTICA: Multi-Objective Self-Distllation Foundation Model Pretraining for Time Series Classification

📄 arXiv: 2603.01348v1 📥 PDF

作者: Yessin Moakher, Youssef Attia El Hili, Vasilii Feofanov

分类: cs.LG, cs.AI

发布日期: 2026-03-02


💡 一句话要点

UTICA:面向时间序列分类的多目标自蒸馏预训练基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列分类 自监督学习 预训练模型 自蒸馏 非对比学习

📋 核心要点

  1. 现有时间序列基础模型预训练方法对非对比学习的探索不足,限制了模型性能的进一步提升。
  2. UTICA采用DINOv2风格的自蒸馏方法,通过学生-教师框架学习时间序列的鲁棒表征。
  3. 实验表明,UTICA在UCR和UEA基准测试中取得了SOTA的分类性能,验证了非对比学习的有效性。

📝 摘要(中文)

自监督基础模型在各个领域都取得了显著成功,包括时间序列。然而,非对比学习方法在计算机视觉领域取得了重大进展,但在时间序列中的潜力仍未被充分探索。本文将DINOv2风格的自蒸馏方法应用于预训练时间序列基础模型,并以Mantis tokenizer和Transformer编码器架构作为骨干网络。通过学生-教师框架,我们的方法Utica学习到的表征既能通过增强裁剪捕获时间不变性,又能通过patch masking捕获细粒度的局部结构。我们的方法在UCR和UEA基准测试中都实现了最先进的分类性能。这些结果表明,非对比学习方法是一种有前途且互补的时间序列基础模型预训练策略。

🔬 方法详解

问题定义:论文旨在解决时间序列分类任务中,现有自监督预训练方法对非对比学习利用不足的问题。现有方法可能无法充分捕捉时间序列数据的时序不变性和局部结构,导致分类性能受限。

核心思路:论文的核心思路是将计算机视觉领域成功的DINOv2自蒸馏方法引入时间序列预训练。通过构建学生-教师网络,学生网络学习模仿教师网络的输出,从而学习到更鲁棒、更具泛化能力的表征。这种方法无需负样本,避免了对比学习中负样本选择的难题。

技术框架:UTICA的整体框架包含以下几个主要模块:1) Mantis tokenizer:用于将原始时间序列数据转换为token序列。2) Transformer编码器:作为学生和教师网络的骨干网络,用于学习时间序列的表征。3) 数据增强模块:对输入时间序列进行裁剪等操作,生成不同的视图。4) 自蒸馏损失函数:用于约束学生网络的输出与教师网络的输出尽可能一致。教师网络的参数通过学生网络的参数进行指数移动平均更新。

关键创新:UTICA的关键创新在于将DINOv2风格的自蒸馏方法成功应用于时间序列预训练。通过结合时间序列特定的数据增强策略(如裁剪)和patch masking,模型能够同时学习到时间不变性和局部结构信息。此外,使用Mantis tokenizer也针对时间序列数据进行了优化。

关键设计:论文使用了Mantis tokenizer将时间序列数据转换为token序列。Transformer编码器采用标准结构。数据增强策略包括随机裁剪和patch masking。自蒸馏损失函数采用交叉熵损失,用于衡量学生网络和教师网络输出之间的差异。教师网络的更新采用指数移动平均(EMA),平滑了教师网络的参数更新过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UTICA在UCR和UEA时间序列分类基准测试中取得了最先进的性能。具体而言,UTICA在多个数据集上显著超越了现有的自监督预训练方法,证明了非对比学习在时间序列领域的有效性。实验结果表明,UTICA能够学习到更具泛化能力的表征,从而在下游任务中取得更好的性能。

🎯 应用场景

该研究成果可广泛应用于各种时间序列分类任务,例如:医疗健康领域的疾病诊断、金融领域的股票预测、工业领域的设备故障检测等。通过预训练得到的时间序列基础模型,可以快速迁移到下游任务,降低模型训练成本,提高模型性能,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Self-supervised foundation models have achieved remarkable success across domains, including time series. However, the potential of non-contrastive methods, a paradigm that has driven significant advances in computer vision, remains underexplored for time series. In this work, we adapt DINOv2-style self-distillation to pretrain a time series foundation model, building on the Mantis tokenizer and transformer encoder architecture as our backbone. Through a student-teacher framework, our method Utica learns representations that capture both temporal invariance via augmented crops and fine-grained local structure via patch masking. Our approach achieves state-of-the-art classification performance on both UCR and UEA benchmarks. These results suggest that non-contrastive methods are a promising and complementary pretraining strategy for time series foundation models.