Retrieval-Augmented Generation with Covariate Time Series

📄 arXiv: 2603.04951v1 📥 PDF

作者: Kenny Ye Liang, Zhongyi Pei, Huan Zhang, Yuhui Liu, Shaoxu Song, Jianmin Wang

分类: cs.AI

发布日期: 2026-03-05

备注: 12 pages. Preprint


💡 一句话要点

提出RAG4CTS,解决时序RAG在复杂工业场景中数据稀疏、短时和协变量耦合的难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列 检索增强生成 预测性维护 协变量 知识库

📋 核心要点

  1. 现有时间序列RAG方法难以应对数据稀疏、短时序列和协变量耦合的复杂工业场景。
  2. RAG4CTS构建分层时间序列知识库,通过双加权检索和代理驱动的上下文优化来提升性能。
  3. 在PRSOV预测性维护任务上,RAG4CTS显著优于现有方法,并在实际部署中成功识别故障。

📝 摘要(中文)

本文提出了一种针对协变量时间序列的、无需训练的RAG框架RAG4CTS,旨在解决时序RAG在时间序列基础模型(TSFMs)上的应用挑战。该框架特别针对高风险工业场景,如压力调节和截止阀(PRSOV)的预测性维护,这些场景通常具有数据稀缺、短瞬态序列和协变量耦合动态等特点。现有方法依赖于生成的静态向量嵌入和可学习的上下文增强器,难以区分这些场景中的相似状态。RAG4CTS构建了一个分层的时间序列原生知识库,以实现原始历史状态的无损存储和物理信息检索。设计了一种两阶段双加权检索机制,通过逐点和多元相似性对齐历史趋势。引入了一种基于代理的策略,以自监督方式动态优化上下文。在PRSOV上的实验表明,该框架显著优于现有技术。该系统已部署在中国南方航空的Apache IoTDB中,并在两个月内成功识别出一个PRSOV故障,且无误报。

🔬 方法详解

问题定义:论文旨在解决时间序列检索增强生成(RAG)在复杂工业场景,如压力调节和截止阀(PRSOV)预测性维护中的应用难题。现有方法主要依赖静态向量嵌入和可学习上下文增强器,无法有效区分数据稀疏、短瞬态序列和协变量耦合的相似状态,导致预测精度下降。

核心思路:论文的核心思路是构建一个时间序列原生的知识库,并设计一种无需训练的检索机制,直接利用原始历史数据进行检索,避免信息损失。同时,引入代理驱动的上下文优化策略,动态调整上下文信息,以适应不同的预测需求。

技术框架:RAG4CTS框架包含以下主要模块:1) 分层时间序列知识库:用于存储原始历史时间序列数据,支持高效检索。2) 两阶段双加权检索:首先通过逐点相似性进行粗略检索,然后通过多元相似性进行精细检索,并对两种相似性进行加权融合。3) 代理驱动的上下文优化:利用强化学习训练一个代理,根据当前状态动态选择最优的上下文信息。

关键创新:RAG4CTS的关键创新在于:1) 时间序列原生知识库,避免了静态向量嵌入造成的信息损失。2) 两阶段双加权检索机制,能够更准确地对齐历史趋势。3) 代理驱动的上下文优化,能够动态调整上下文信息,提高预测精度。与现有方法相比,RAG4CTS无需训练,更易于部署和维护。

关键设计:在两阶段双加权检索中,逐点相似性采用欧氏距离或余弦相似度等度量,多元相似性采用动态时间规整(DTW)等方法。代理驱动的上下文优化中,代理采用深度Q网络(DQN)或策略梯度等强化学习算法,奖励函数根据预测精度进行设计。知识库的分层结构根据时间序列的粒度进行划分,例如,分钟级、小时级、天级等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RAG4CTS在PRSOV预测性维护任务上取得了显著的性能提升,预测精度优于现有技术。在实际部署中,该方法在中国南方航空的Apache IoTDB中成功识别出一个PRSOV故障,且无误报,验证了其在实际工业场景中的有效性。实验结果表明,RAG4CTS能够有效应对数据稀疏、短瞬态序列和协变量耦合的挑战。

🎯 应用场景

RAG4CTS可广泛应用于需要预测性维护的工业场景,例如航空发动机、电力设备、化工生产线等。通过准确预测设备故障,可以降低维护成本,提高生产效率,保障安全生产。此外,该方法还可以应用于金融时间序列预测、气象预测等领域,具有重要的实际应用价值。

📄 摘要(原文)

While RAG has greatly enhanced LLMs, extending this paradigm to Time-Series Foundation Models (TSFMs) remains a challenge. This is exemplified in the Predictive Maintenance of the Pressure Regulating and Shut-Off Valve (PRSOV), a high-stakes industrial scenario characterized by (1) data scarcity, (2) short transient sequences, and (3) covariate coupled dynamics. Unfortunately, existing time-series RAG approaches predominantly rely on generated static vector embeddings and learnable context augmenters, which may fail to distinguish similar regimes in such scarce, transient, and covariate coupled scenarios. To address these limitations, we propose RAG4CTS, a regime-aware, training-free RAG framework for Covariate Time-Series. Specifically, we construct a hierarchal time-series native knowledge base to enable lossless storage and physics-informed retrieval of raw historical regimes. We design a two-stage bi-weighted retrieval mechanism that aligns historical trends through point-wise and multivariate similarities. For context augmentation, we introduce an agent-driven strategy to dynamically optimize context in a self-supervised manner. Extensive experiments on PRSOV demonstrate that our framework significantly outperforms state-of-the-art baselines in prediction accuracy. The proposed system is deployed in Apache IoTDB within China Southern Airlines. Since deployment, our method has successfully identified one PRSOV fault in two months with zero false alarm.