Adapting Time Series Foundation Models through Data Mixtures
作者: Thomas L. Lee, Edoardo M. Ponti, Amos Storkey
分类: cs.LG, stat.ML
发布日期: 2026-03-03
备注: Preprint, 8 pages
💡 一句话要点
提出MixFT方法,通过数据混合微调时间序列基础模型,提升零样本预测性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 基础模型 零样本学习 领域自适应 贝叶斯混合模型
📋 核心要点
- 时间序列基础模型在零样本预测中面临领域泛化挑战,当目标领域数据分布与预训练数据差异较大时,性能显著下降。
- MixFT方法通过贝叶斯混合模型将数据划分为更同质的子域,并针对每个子域微调LoRA模块,使模型更好地适应不同数据分布。
- 实验结果表明,MixFT方法优于在整个数据集上微调或在每个数据集上单独微调的方法,表明子域划分能有效提升零样本预测性能。
📝 摘要(中文)
时间序列基础模型(TSFMs)在零样本预测中越来越受欢迎。然而,对于预训练集中未完全覆盖的新时间序列领域,性能可能会下降。因此,当从业者关注一个新领域并可以访问一组相关数据集时,问题就出现了:如何最好地微调TSFM以提高零样本预测性能?一种典型的方法是在所有数据集上或每个数据集上分别微调LoRA模块。在每个数据集上调整单独的模块允许TSFM专门用于不同类型的数据分布,通过为不同的时间序列上下文选择不同的每个数据集模块的组合。然而,我们发现,使用每个数据集的模块可能不是最优的,因为一个时间序列数据集可能包含来自几种类型分布的数据,即子域。这可能是由于分布偏移或时间序列的不同维度具有不同的分布。因此,我们提出了MixFT,它使用贝叶斯混合模型将数据重新划分为最能代表数据中存在的子域的集合,并分别对每个集合进行微调。这种数据的重新划分确保了每个集合更加同质,从而使微调后的模块专注于特定的子域。我们的实验表明,MixFT的性能优于每个数据集的方法以及在所有数据上微调单个模块的方法。这表明,通过重新划分数据以表示子域,我们可以更好地专门化TSFM,从而提高零样本预测。
🔬 方法详解
问题定义:论文旨在解决时间序列基础模型(TSFM)在零样本预测中,当目标领域数据分布与预训练数据存在差异时,模型性能下降的问题。现有方法如直接在所有数据上微调或在每个数据集上单独微调,都无法有效应对数据集中存在的多个子域分布的情况。这些方法要么忽略了数据集内部的异质性,要么过度关注数据集之间的差异,导致模型泛化能力受限。
核心思路:MixFT的核心思路是将数据集根据数据分布的相似性划分为多个子域,并针对每个子域进行独立的微调。通过这种方式,模型可以学习到每个子域的特定特征,从而更好地适应目标领域的数据分布。这种方法的核心在于利用贝叶斯混合模型来自动识别和划分数据中的子域,避免了人工划分带来的主观性和局限性。
技术框架:MixFT方法主要包含以下几个阶段:1) 数据预处理:对时间序列数据进行清洗、标准化等预处理操作。2) 子域划分:使用贝叶斯混合模型对数据进行聚类,将数据划分为多个子域。每个子域代表一种特定的数据分布。3) 模型微调:针对每个子域,使用LoRA(Low-Rank Adaptation)模块对TSFM进行微调。LoRA通过引入低秩矩阵来更新模型参数,从而减少计算量和内存消耗。4) 零样本预测:在目标领域的数据上进行零样本预测,根据数据所属的子域选择对应的微调后的LoRA模块。
关键创新:MixFT的关键创新在于利用贝叶斯混合模型自动识别和划分时间序列数据中的子域。与传统方法相比,MixFT能够更准确地捕捉数据集中存在的多种分布,从而使模型更好地适应目标领域的数据。此外,MixFT还采用了LoRA模块进行微调,降低了计算成本,提高了训练效率。
关键设计:MixFT的关键设计包括:1) 贝叶斯混合模型的选择:论文中使用了高斯混合模型作为贝叶斯混合模型,用于对时间序列数据进行聚类。2) LoRA模块的参数设置:论文中对LoRA模块的秩(rank)进行了调整,以平衡模型性能和计算成本。3) 损失函数的设计:论文中使用了均方误差(MSE)作为损失函数,用于衡量模型预测值与真实值之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MixFT方法在多个时间序列数据集上优于基线方法,包括在所有数据上微调和在每个数据集上单独微调。具体而言,MixFT在零样本预测任务中取得了显著的性能提升,表明通过子域划分可以更好地专门化TSFM,从而提高泛化能力。实验结果验证了MixFT方法的有效性和优越性。
🎯 应用场景
MixFT方法可应用于各种时间序列预测场景,如金融市场预测、能源需求预测、供应链管理等。通过利用相关数据集进行微调,可以显著提高TSFM在特定领域的预测精度,降低预测风险,为决策提供更可靠的依据。该方法还可推广到其他类型的基础模型和数据领域,具有广泛的应用前景。
📄 摘要(原文)
Time series foundation models (TSFMs) have become increasingly popular for zero-shot forecasting. However, for a new time series domain not fully covered by the pretraining set, performance can suffer. Therefore, when a practitioner cares about a new domain and has access to a set of related datasets, the question arises: how best to fine-tune a TSFM to improve zero-shot forecasting? A typical approach to this type of problem is to fine-tune a LoRA module on all datasets or separately on each dataset. Tuning a separate module on each dataset allows for the specialisation of the TSFM to different types of data distribution, by selecting differing combinations of per-dataset modules for different time series contexts. However, we find that, using per-dataset modules might not be optimal, since a time series dataset can contain data from several types of distributions, i.e. sub-domains. This can be due to the distribution shifting or having differing distributions for different dimensions of the time series. Hence, we propose MixFT which re-divides the data using Bayesian mixtures into sets that best represent the sub-domains present in the data, and fine-tunes separately on each of these sets. This re-division of the data ensures that each set is more homogeneous, leading to fine-tuned modules focused on specific sub-domains. Our experiments show that MixFT performs better than per-dataset methods and when fine-tuning a single module on all the data. This suggests that by re-partitioning the data to represent sub-domains we can better specialise TSFMs to improve zero-shot forecasting.