STReasoner: Empowering LLMs for Spatio-Temporal Reasoning in Time Series via Spatial-Aware Reinforcement Learning

📄 arXiv: 2601.03248v1 📥 PDF

作者: Juntong Ni, Shiyu Wang, Ming Jin, Qi He, Wei Jin

分类: cs.CL

发布日期: 2026-01-06

备注: preprint, we release our code publicly at https://github.com/LingFengGold/STReasoner


💡 一句话要点

提出STReasoner,利用空间感知强化学习增强LLM在时序数据中的时空推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 时空推理 时间序列 大型语言模型 强化学习 图神经网络

📋 核心要点

  1. 现有方法在时序数据时空推理中,侧重预测精度而忽略了对时空依赖关系的显式推理。
  2. STReasoner通过结合时间序列、图结构和文本信息,利用LLM进行显式推理,提升时空推理能力。
  3. S-GRPO强化学习算法奖励空间信息带来的性能提升,实验表明STReasoner在准确率上有显著提升。

📝 摘要(中文)

时序数据中的时空推理涉及时间动态、空间依赖和文本上下文的显式综合。这种能力对于交通网络、电力网和疾病传播等系统中的高风险决策至关重要。然而,由于现有工作大多优先考虑预测准确性而非推理,该领域仍不发达。为了解决这一差距,我们引入了ST-Bench,这是一个由四个核心任务组成的基准,包括病因推理、实体识别、相关性推理和上下文预测,通过基于网络SDE的多智能体数据合成管道开发。然后,我们提出了STReasoner,它使LLM能够整合时间序列、图结构和文本以进行显式推理。为了促进空间逻辑,我们引入了S-GRPO,一种强化学习算法,专门奖励归因于空间信息的性能提升。实验表明,STReasoner以仅为专有模型0.004倍的成本实现了平均17%到135%的准确率提升,并且能够稳健地推广到真实世界的数据。

🔬 方法详解

问题定义:现有方法在时序数据分析中,往往侧重于预测精度,而忽略了对时空依赖关系的显式推理。这导致模型难以解释预测结果,也难以进行更深层次的因果分析和决策支持。特别是在交通网络、电力网等复杂系统中,缺乏有效的时空推理能力会严重影响决策质量。

核心思路:STReasoner的核心思路是利用大型语言模型(LLM)的强大推理能力,结合时间序列数据、图结构信息和文本上下文,进行显式的时空推理。通过将这些信息整合到LLM中,模型可以更好地理解数据之间的时空关系,从而提高推理的准确性和可解释性。

技术框架:STReasoner的整体框架包括以下几个主要模块:1) 数据输入模块:负责接收时间序列数据、图结构信息和文本上下文。2) LLM推理模块:利用LLM对输入数据进行推理,生成推理结果。3) 空间感知强化学习模块:使用S-GRPO算法,根据空间信息对LLM的推理过程进行优化。4) 输出模块:输出推理结果和相应的解释。

关键创新:STReasoner的关键创新在于以下两点:1) 提出了ST-Bench基准测试,用于评估时序数据时空推理能力。2) 提出了S-GRPO强化学习算法,该算法能够奖励由于空间信息带来的性能提升,从而促进空间逻辑的推理。

关键设计:S-GRPO算法的关键设计在于其奖励函数,该奖励函数专门用于奖励由于空间信息带来的性能提升。具体来说,该奖励函数会比较模型在使用了空间信息和未使用空间信息时的性能差异,并将该差异作为奖励信号。此外,STReasoner还使用了特定的prompt工程技术,以引导LLM进行有效的时空推理。具体的LLM选择和参数设置在论文中有详细描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,STReasoner在ST-Bench基准测试上取得了显著的性能提升,平均准确率提升了17%到135%,并且仅使用了专有模型0.004倍的成本。此外,STReasoner还表现出了良好的泛化能力,能够稳健地应用于真实世界的数据集。这些结果表明,STReasoner是一种有效的时序数据时空推理方法。

🎯 应用场景

STReasoner在交通网络、电力网、疾病传播等领域具有广泛的应用前景。例如,在交通网络中,可以利用STReasoner进行交通流量预测、拥堵分析和路径规划;在电力网中,可以用于电力负荷预测、故障诊断和安全评估;在疾病传播中,可以用于疫情预测、传播路径分析和防控策略制定。该研究有助于提升复杂系统的决策效率和智能化水平。

📄 摘要(原文)

Spatio-temporal reasoning in time series involves the explicit synthesis of temporal dynamics, spatial dependencies, and textual context. This capability is vital for high-stakes decision-making in systems such as traffic networks, power grids, and disease propagation. However, the field remains underdeveloped because most existing works prioritize predictive accuracy over reasoning. To address the gap, we introduce ST-Bench, a benchmark consisting of four core tasks, including etiological reasoning, entity identification, correlation reasoning, and in-context forecasting, developed via a network SDE-based multi-agent data synthesis pipeline. We then propose STReasoner, which empowers LLM to integrate time series, graph structure, and text for explicit reasoning. To promote spatially grounded logic, we introduce S-GRPO, a reinforcement learning algorithm that rewards performance gains specifically attributable to spatial information. Experiments show that STReasoner achieves average accuracy gains between 17% and 135% at only 0.004X the cost of proprietary models and generalizes robustly to real-world data.