Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling
作者: Yong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long
分类: cs.AI
发布日期: 2026-03-05
💡 一句话要点
Timer-S1:通过序列化扩展实现十亿级时间序列基础模型,显著提升预测精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 基础模型 混合专家模型 序列化扩展 长序列预测
📋 核心要点
- 现有时间序列预训练模型面临可扩展性瓶颈,难以处理超大规模数据集和长序列预测。
- Timer-S1通过模型架构、数据集和训练流程的序列化扩展,构建了十亿级参数的MoE时间序列基础模型。
- Timer-S1在GIFT-Eval排行榜上取得了SOTA的预测性能,证明了其在大规模时间序列预测任务上的有效性。
📝 摘要(中文)
本文提出了Timer-S1,一个强大的混合专家(MoE)时间序列基础模型,总参数量为83亿,每个token激活参数量为7.5亿,上下文长度为11.5K。为了克服现有预训练时间序列基础模型的可扩展性瓶颈,本文在模型架构、数据集和训练流程三个维度上进行了序列化扩展。Timer-S1集成了稀疏TimeMoE块和通用TimeSTP块,用于序列Token预测(STP),这是一种通用的训练目标,符合预测的序列性质。所提出的范式引入了序列计算,以提高长期预测的性能,同时避免了标准下一个token预测中代价高昂的滚动式推理和明显的误差累积。为了追求高质量和无偏见的训练数据集,本文整理了一个包含一万亿个时间点的时间序列数据集TimeBench,并应用细致的数据增强来减轻预测偏差。本文进一步开创了一个后训练阶段,包括持续预训练和长上下文扩展,以提高短期和长上下文性能。在大型GIFT-Eval排行榜上进行评估,Timer-S1实现了最先进的预测性能,作为预训练模型获得了最佳的MASE和CRPS分数。Timer-S1将被发布,以促进进一步的研究。
🔬 方法详解
问题定义:现有时间序列预训练模型在扩展性方面存在瓶颈,难以有效利用大规模时间序列数据进行训练,并且在长序列预测中容易出现误差累积。此外,现有方法通常采用next-token prediction,忽略了时间序列的序列特性。
核心思路:Timer-S1的核心思路是通过序列化扩展来提升模型的可扩展性,并利用序列Token预测(STP)来更好地捕捉时间序列的序列依赖关系。通过在模型架构、数据集和训练流程三个维度上进行序列化扩展,从而实现对大规模时间序列数据的有效利用和长序列预测能力的提升。
技术框架:Timer-S1的整体架构包括以下几个主要模块:1) TimeMoE块和TimeSTP块,用于模型架构的序列化扩展;2) TimeBench数据集,包含一万亿个时间点,用于数据集的序列化扩展;3) 序列Token预测(STP)训练目标,用于训练流程的序列化扩展。此外,还包括一个后训练阶段,用于进一步提升模型的性能。
关键创新:Timer-S1的关键创新在于三个维度的序列化扩展:1) 模型架构上,集成了稀疏TimeMoE块和通用TimeSTP块;2) 数据集上,构建了大规模高质量的TimeBench数据集;3) 训练流程上,提出了序列Token预测(STP)训练目标。与现有方法相比,Timer-S1更注重时间序列的序列特性,并能够有效利用大规模时间序列数据。
关键设计:TimeMoE块采用稀疏激活机制,降低了计算复杂度。TimeSTP块的设计考虑了时间序列的序列依赖关系。TimeBench数据集经过精心筛选和数据增强,保证了数据的质量和多样性。序列Token预测(STP)训练目标通过预测序列中的多个token,更好地捕捉了时间序列的序列依赖关系。后训练阶段包括持续预训练和长上下文扩展,进一步提升了模型的性能。
🖼️ 关键图片
📊 实验亮点
Timer-S1在GIFT-Eval排行榜上取得了SOTA的预测性能,获得了最佳的MASE和CRPS分数。这表明Timer-S1在处理大规模时间序列预测任务方面具有显著的优势。与现有预训练模型相比,Timer-S1能够更准确地捕捉时间序列的序列依赖关系,并进行更可靠的长序列预测。
🎯 应用场景
Timer-S1具有广泛的应用前景,包括但不限于:金融市场预测、能源消耗预测、供应链管理、交通流量预测、医疗健康监测等。该模型能够处理大规模时间序列数据,并进行准确的长序列预测,为各行业提供决策支持,具有重要的实际价值和未来影响。
📄 摘要(原文)
We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.