time2time: Causal Intervention in Hidden States to Simulate Rare Events in Time Series Foundation Models

作者: Debdeep Sanyal, Aaryan Nagpal, Dhruv Kumar, Murari Mandal, Saurabh Deshpande

分类: cs.LG, cs.AI

发布日期: 2025-09-06 (更新: 2025-10-04)

期刊: NeurIPS 2025 Workshop on Recent Advances in Time Series Foundation Models (BERT2S)

💡 一句话要点

提出时间序列Transformer模型的因果干预方法，模拟罕见事件并进行压力测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 Transformer模型 因果干预 激活移植 罕见事件模拟 压力测试 金融风险管理

📋 核心要点

时间序列Transformer模型在预测常规模式方面表现出色，但缺乏对市场机制等语义概念的理解，难以模拟罕见事件。
论文提出激活移植方法，通过因果干预操纵隐藏状态，将特定事件的统计特征注入到其他时间段，从而控制模型的预测行为。
实验表明，该方法能够有效控制模型预测，注入崩盘语义会预测下跌，注入平静语义则抑制崩盘，验证了模型内部存在可操纵的语义表示。

📝 摘要（中文）

本文提出了一种名为“激活移植”的因果干预方法，用于操纵时间序列Transformer基础模型中的隐藏状态，以模拟罕见的高风险事件，例如市场崩盘。该方法通过将一个事件（如历史崩盘）的统计矩强加到另一个事件（如平静期）的隐藏状态上，从而在模型前向传播过程中确定性地引导预测。实验结果表明，注入崩盘语义会诱导下跌预测，而注入平静语义会抑制崩盘并恢复稳定性。此外，模型编码了事件严重程度的分级概念，潜在向量范数与系统性冲击的幅度直接相关。该方法在Toto（仅解码器）和Chronos（编码器-解码器）两种架构不同的时间序列Transformer模型上进行了验证，证明了可操纵的、语义化的表示是大规模时间序列Transformer模型的稳健属性。该研究为潜在概念空间提供了证据，将可解释性从事后归因转变为直接因果干预，并为战略压力测试实现了语义“假设分析”。

🔬 方法详解

问题定义：现有时间序列Transformer模型虽然在预测常见模式上表现良好，但缺乏对深层语义概念的理解，例如市场状态。这导致它们难以模拟罕见且高风险的事件，例如市场崩盘。现有的可解释性方法通常是事后归因，无法进行主动的干预和控制。

核心思路：论文的核心思路是通过因果干预来操纵模型的内部表示，具体来说，就是通过“激活移植”技术，将一个事件（例如历史崩盘）的统计特征（例如均值和方差）注入到另一个事件（例如平静时期）的隐藏状态中。这样，就可以在不改变输入数据的情况下，直接影响模型的预测结果，从而模拟罕见事件的发生。

技术框架：该方法主要包含以下几个步骤：1) 选择源事件和目标事件；2) 提取源事件在模型隐藏层中的统计矩（均值和方差）；3) 将这些统计矩应用到目标事件的隐藏状态中，即对目标事件的隐藏状态进行标准化，然后使用源事件的均值和方差进行缩放和平移；4) 使用修改后的隐藏状态进行前向传播，观察模型预测结果的变化。该方法可以应用于不同的Transformer架构，例如仅解码器的Toto和编码器-解码器的Chronos。

关键创新：该方法最重要的创新点在于它提供了一种直接的因果干预手段，可以操纵时间序列Transformer模型的内部表示，从而控制模型的预测行为。与传统的事后归因方法不同，该方法允许研究人员主动地改变模型的内部状态，并观察这些改变对预测结果的影响。此外，该方法还揭示了模型内部存在一个语义概念空间，其中事件的严重程度与潜在向量的范数直接相关。

关键设计：激活移植的关键在于如何选择合适的隐藏层进行干预，以及如何计算和应用统计矩。论文中使用了所有Transformer层的隐藏状态，并计算了每一层的均值和方差。在应用统计矩时，使用了标准化的方法，以确保干预的有效性和稳定性。此外，论文还探索了不同事件严重程度对预测结果的影响，发现潜在向量的范数与系统性冲击的幅度直接相关。

📊 实验亮点

实验结果表明，激活移植方法能够有效控制时间序列Transformer模型的预测行为。例如，注入崩盘语义可以诱导下跌预测，而注入平静语义可以抑制崩盘。此外，研究发现模型编码了事件严重程度的分级概念，潜在向量范数与系统性冲击的幅度直接相关。该方法在Toto和Chronos两种架构不同的模型上都取得了良好的效果。

🎯 应用场景

该研究成果可应用于金融风险管理、压力测试、异常检测等领域。通过模拟罕见事件，可以评估金融系统在极端情况下的稳定性，并为制定风险应对策略提供依据。此外，该方法还可以用于预测设备故障、网络攻击等事件，提高系统的安全性和可靠性。

📄 摘要（原文）

While transformer-based foundation models excel at forecasting routine patterns, two questions remain: do they internalize semantic concepts such as market regimes, or merely fit curves? And can their internal representations be leveraged to simulate rare, high-stakes events such as market crashes? To investigate this, we introduce activation transplantation, a causal intervention that manipulates hidden states by imposing the statistical moments of one event (e.g., a historical crash) onto another (e.g., a calm period) during the forward pass. This procedure deterministically steers forecasts: injecting crash semantics induces downturn predictions, while injecting calm semantics suppresses crashes and restores stability. Beyond binary control, we find that models encode a graded notion of event severity, with the latent vector norm directly correlating with the magnitude of systemic shocks. Validated across two architecturally distinct TSFMs, Toto (decoder only) and Chronos (encoder-decoder), our results demonstrate that steerable, semantically grounded representations are a robust property of large time series transformers. Our findings provide evidence for a latent concept space that governs model predictions, shifting interpretability from post-hoc attribution to direct causal intervention, and enabling semantic "what-if" analysis for strategic stress-testing.

time2time: Causal Intervention in Hidden States to Simulate Rare Events in Time Series Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册