SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models
作者: Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang
分类: cs.CL
发布日期: 2026-03-06
💡 一句话要点
SPOT:通过跨度级暂停思想提升大语言模型推理效率与可解释性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 隐式推理 思维链 可解释性 语义对齐 最优传输 推理效率
📋 核心要点
- 现有CoT方法推理成本高,且侧重截断模型输出而非理解模型内部思考。
- SPOT通过跨度级语义对齐和冻结头解码约束,将显式CoT压缩为隐式暂停token。
- 实验表明,SPOT在提升推理准确率的同时,显著减少了生成token数量,并增强了可解释性。
📝 摘要(中文)
显式的思维链(Chain-of-Thought, CoT)提高了大型语言模型的推理性能,但由于冗长的token级追踪,通常会产生高昂的推理成本。最近的方法通过简洁的提示或步骤剪枝来降低这种开销,但它们主要截断了模型所说的内容,而不是内化模型所想的内容。隐式推理提供了一种有希望的替代方案,通过在隐藏空间中执行计算,但先前的方法面临两个关键挑战。许多现有方法依赖于刚性的点对点对齐,迫使隐式token近似推理步骤的最终表示,这可能不足以捕获整个推理段的密集、可变长度的语义。此外,这些方法通常缺乏可解释性:隐式状态通常由无约束优化或嵌入混合产生,从而产生难以在预训练语言模型头下解码或审计的向量。我们提出了SPOT,一个灵活的框架,将显式CoT压缩成紧凑的隐式暂停token,而无需强制执行固定的响应模板。SPOT的核心是跨度级语义对齐,这是一种Sinkhorn最优传输目标,可将每个暂停token与整个推理段的语义柔和地匹配,从而克服了步骤结束对齐的刚性。为了进一步提高可解释性,SPOT引入了冻结头解码约束,使隐式状态可以直接解码为冻结的预训练LM头下的token分布,从而实现对隐式思想的可读关键字解释。在推理基准上的实验表明,SPOT平均提高了2.3个百分点的准确率,同时减少了37.5%的生成token,并提供了对隐式推理过程的忠实语义解释。
🔬 方法详解
问题定义:现有显式思维链(CoT)方法虽然提升了大语言模型的推理能力,但由于需要生成大量的token级推理步骤,导致推理成本过高。而隐式推理方法虽然试图在隐空间进行计算,但存在两个主要问题:一是缺乏对推理步骤语义的充分捕捉,二是隐状态难以解释,缺乏可审计性。
核心思路:SPOT的核心思路是将显式CoT的推理过程压缩成一系列紧凑的隐式“暂停”token,这些token能够捕捉整个推理片段的语义信息。通过在隐空间进行推理,减少了生成的token数量,从而降低了推理成本。同时,通过约束隐状态使其可以直接解码为token分布,提高了模型的可解释性。
技术框架:SPOT框架主要包含以下几个阶段:1) 使用显式CoT生成推理过程;2) 将推理过程分割成多个语义相关的跨度(span);3) 使用跨度级语义对齐,将每个跨度压缩成一个隐式暂停token;4) 在隐空间进行推理;5) 使用冻结头解码约束,将隐状态解码为可解释的token分布。
关键创新:SPOT的关键创新在于:1) 提出了跨度级语义对齐,克服了传统点对点对齐的局限性,能够更充分地捕捉推理片段的语义信息;2) 引入了冻结头解码约束,使得隐状态可以直接解码为token分布,提高了模型的可解释性。
关键设计:跨度级语义对齐使用Sinkhorn最优传输算法,将每个暂停token与整个推理跨度的语义进行柔性匹配。冻结头解码约束通过最小化隐状态解码出的token分布与真实token分布之间的差异来实现。损失函数包括跨度级语义对齐损失和冻结头解码约束损失。网络结构基于Transformer,并在Transformer层之间插入可学习的暂停token。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SPOT在多个推理基准上取得了显著的性能提升。例如,在某些数据集上,SPOT的准确率平均提高了2.3个百分点,同时减少了37.5%的生成token。此外,SPOT还提供了对隐式推理过程的忠实语义解释,验证了其可解释性。
🎯 应用场景
SPOT可应用于各种需要高效且可解释推理的大语言模型应用场景,例如问答系统、文本摘要、代码生成等。通过降低推理成本和提高可解释性,SPOT有助于推动大语言模型在资源受限环境下的部署和应用,并增强用户对模型推理过程的信任。
📄 摘要(原文)
Explicit Chain-of-Thought improves the reasoning performance of large language models but often incurs high inference cost due to verbose token-level traces. While recent approaches reduce this overhead via concise prompting or step pruning, they largely truncate what the model says rather than internalize what the model thinks. Latent reasoning offers a promising alternative by performing computation in the hidden space, yet prior methods face two critical challenges. Many existing approaches rely on rigid point-to-point alignment, forcing a latent token to approximate the final representation of a reasoning step, which can be insufficient to capture the dense, variable-length semantics of an entire reasoning segment. Furthermore, these methods often suffer from a lack of interpretability: latent states are commonly produced by unconstrained optimization or embedding mixing, yielding vectors that are difficult to decode or audit under the pretrained language head. We propose SPOT, a flexible framework that compresses explicit CoT into compact latent pause tokens without enforcing a fixed response template. At the core of SPOT is Span-level Semantic Alignment, a Sinkhorn optimal-transport objective that softly matches each pause token to the semantics of an entire reasoning segment, overcoming the rigidity of step-end alignment. To further improve interpretability, SPOT introduces a Frozen-Head Decoding Constraint that keeps latent states directly decodable as token distributions under the frozen pretrained LM head, enabling readable keyword interpretations of latent thoughts. Experiments on reasoning benchmarks demonstrate that SPOT improves accuracy by 2.3 points on average while reducing generated tokens by 37.5% and provides faithful semantic interpretations of the latent reasoning process.