Sandwich Reasoning: An Answer-Reasoning-Answer Approach for Low-Latency Query Correction

📄 arXiv: 2601.03672v1 📥 PDF

作者: Chen Zhang, Kepu Zhang, Jiatong Zhang, Xiao Zhang, Jun Xu

分类: cs.AI, cs.CL

发布日期: 2026-01-07


💡 一句话要点

提出SandwichR,通过答案-推理-答案范式实现低延迟高精度查询纠错

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 查询纠错 低延迟 链式思考 强化学习 在线搜索

📋 核心要点

  1. 现有CoT推理方法虽能提升查询纠错精度,但高延迟使其难以应用于实时在线搜索场景。
  2. SandwichR通过答案-推理-答案范式,将初始快速答案与后续推理对齐,兼顾低延迟与高精度。
  3. 实验表明,SandwichR在保证SOTA精度的同时,延迟降低40-70%,有效平衡了延迟与精度。

📝 摘要(中文)

查询纠错是现代搜索流程中的关键环节,需要在严格的实时延迟约束下保证高准确率。链式思考(CoT)推理可以提高准确率,但会产生过高的延迟,不适用于实时查询纠错。一个潜在的解决方案是在推理之前输出答案以减少延迟;然而,在自回归解码下,早期答案与后续推理无关,模型无法利用其推理能力来提高准确率。为了解决这个问题,我们提出了一种新的方法Sandwich Reasoning (SandwichR),它显式地将快速的初始答案与事后推理对齐,从而在不牺牲推理感知准确性的情况下实现低延迟查询纠错。SandwichR遵循答案-推理-答案范式,生成初始纠正、显式推理过程和最终精细纠正。为了将初始答案与推理后的见解对齐,我们设计了一种一致性感知强化学习(RL)策略:一种专门的一致性奖励强制初始纠正和最终纠正之间的一致性,而基于边际的拒绝抽样优先考虑推理驱动最具影响力的纠正增益的边界样本。此外,我们构建了一个高质量的查询纠错数据集,解决了复杂查询纠错缺乏专门基准的问题。实验结果表明,SandwichR实现了与标准CoT相当的SOTA准确率,同时降低了40-70%的延迟,解决了在线搜索中的延迟-准确率权衡。

🔬 方法详解

问题定义:论文旨在解决在线搜索中查询纠错任务的延迟-精度权衡问题。现有方法,特别是基于链式思考(CoT)的方法,虽然能提高纠错的准确性,但由于其推理过程的复杂性,导致延迟过高,无法满足在线搜索的实时性要求。因此,如何在保证准确性的前提下,显著降低查询纠错的延迟,是本论文要解决的核心问题。

核心思路:Sandwich Reasoning (SandwichR)的核心思路是采用“答案-推理-答案”的范式。首先快速生成一个初始的查询纠正结果,然后进行显式的推理过程,最后基于推理结果对初始答案进行修正,得到最终的纠正结果。这种设计允许模型在推理之前就输出一个初步结果,从而降低整体延迟。同时,通过后续的推理过程,可以对初始答案进行优化,提高准确性。

技术框架:SandwichR的技术框架主要包含三个阶段:1) 初始答案生成阶段:模型快速生成一个初步的查询纠正结果。2) 推理阶段:模型进行显式的推理过程,分析查询中的错误并提出可能的修正方案。3) 最终答案生成阶段:模型结合初始答案和推理结果,生成最终的查询纠正结果。为了保证初始答案和最终答案的一致性,论文还引入了一致性感知强化学习策略。

关键创新:SandwichR的关键创新在于其“答案-推理-答案”的范式以及一致性感知强化学习策略。与传统的CoT方法不同,SandwichR允许模型在推理之前就输出一个初步结果,从而显著降低延迟。一致性感知强化学习策略则保证了初始答案和最终答案之间的一致性,避免了推理过程对初始答案产生过大的偏差。

关键设计:一致性感知强化学习策略是SandwichR的关键设计之一。该策略包含一个专门的一致性奖励,用于衡量初始答案和最终答案之间的一致性。此外,论文还采用了基于边际的拒绝抽样方法,优先考虑那些推理过程能够带来显著纠正增益的样本。这些样本通常是模型难以判断的边界样本,通过强化学习可以有效地提高模型对这些样本的纠错能力。

📊 实验亮点

实验结果表明,SandwichR在查询纠错任务上取得了与标准CoT方法相当的SOTA精度,同时延迟降低了40-70%。这表明SandwichR成功地解决了在线搜索中延迟-精度权衡问题,为实时查询纠错提供了一种有效的解决方案。

🎯 应用场景

SandwichR可广泛应用于在线搜索引擎、智能助手、对话系统等需要实时查询纠错的场景。该方法能够显著降低查询纠错的延迟,提升用户体验,并提高搜索结果的准确性。未来,该方法有望扩展到其他需要低延迟和高精度的自然语言处理任务中。

📄 摘要(原文)

Query correction is a critical entry point in modern search pipelines, demanding high accuracy strictly within real-time latency constraints. Chain-of-Thought (CoT) reasoning improves accuracy but incurs prohibitive latency for real-time query correction. A potential solution is to output an answer before reasoning to reduce latency; however, under autoregressive decoding, the early answer is independent of subsequent reasoning, preventing the model from leveraging its reasoning capability to improve accuracy. To address this issue, we propose Sandwich Reasoning (SandwichR), a novel approach that explicitly aligns a fast initial answer with post-hoc reasoning, enabling low-latency query correction without sacrificing reasoning-aware accuracy. SandwichR follows an Answer-Reasoning-Answer paradigm, producing an initial correction, an explicit reasoning process, and a final refined correction. To align the initial answer with post-reasoning insights, we design a consistency-aware reinforcement learning (RL) strategy: a dedicated consistency reward enforces alignment between the initial and final corrections, while margin-based rejection sampling prioritizes borderline samples where reasoning drives the most impactful corrective gains. Additionally, we construct a high-quality query correction dataset, addressing the lack of specialized benchmarks for complex query correction. Experimental results demonstrate that SandwichR achieves SOTA accuracy comparable to standard CoT while delivering a 40-70% latency reduction, resolving the latency-accuracy trade-off in online search.