Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction
作者: Xingwu Chen, Zhanqiu Zhang, Yiwen Guo, Difan Zou
分类: cs.AI, cs.CL
发布日期: 2026-03-05
💡 一句话要点
提出RLSTA方法,利用单轮锚点强化学习,解决LLM多轮交互中的上下文惯性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多轮对话 上下文惯性 强化学习 单轮锚点 语言模型 策略优化 跨领域泛化
📋 核心要点
- 现有LLM在多轮交互中存在“上下文惯性”问题,即模型难以根据新信息更新推理。
- 论文提出RLSTA方法,利用模型在单轮交互中的优秀表现作为锚点,通过强化学习打破上下文惯性。
- 实验表明,RLSTA显著优于传统微调方法,并具有良好的跨领域泛化能力。
📝 摘要(中文)
大型语言模型(LLM)在单轮交互中表现出强大的推理能力,但在多轮交互中却表现出显著的脆弱性。具体而言,当信息以增量方式揭示或需要更新时,模型经常无法整合新的约束,导致性能相比单轮基线崩溃。我们将根本原因称为“上下文惯性”:模型僵化地坚持先前的推理轨迹。即使在后续轮次中用户明确提供更正或新数据,模型也会忽略它们,而倾向于保持与其先前(不正确)的推理路径的一致性。为了解决这个问题,我们引入了基于单轮锚点的强化学习(RLSTA),这是一种通用化的训练方法,旨在稳定各种场景和领域中的多轮交互。RLSTA利用模型卓越的单轮能力作为稳定的内部锚点来提供奖励信号。通过将多轮响应与这些锚点对齐,RLSTA使模型能够打破上下文惯性,并根据最新信息自我校准其推理。实验表明,RLSTA显著优于标准微调和基于弃权的方法。值得注意的是,我们的方法表现出强大的跨领域泛化能力(例如,数学到代码),并且即使没有外部验证器也证明有效,突出了其在通用领域应用中的潜力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多轮对话中存在的“上下文惯性”问题。具体来说,当用户在对话过程中提供新的信息或更正时,模型往往无法有效地整合这些信息,而是固守之前的错误推理路径。现有方法,如标准微调,难以克服这种惯性,导致多轮对话性能显著下降。
核心思路:RLSTA的核心思路是利用模型在单轮交互中表现出的相对稳定的推理能力,将其作为多轮交互的“锚点”。通过强化学习,鼓励模型在多轮对话中生成的回复与单轮锚点保持一致,从而打破上下文惯性,提高模型对新信息的敏感性和适应性。
技术框架:RLSTA的整体框架包含以下几个主要阶段:1) 单轮锚点生成:对于给定的多轮对话上下文,使用模型生成一个基于所有信息的单轮回复,作为锚点。2) 多轮回复生成:模型根据多轮对话历史生成当前轮次的回复。3) 奖励计算:计算多轮回复与单轮锚点之间的相似度,作为强化学习的奖励信号。4) 策略优化:使用强化学习算法(如PPO)优化模型的策略,使其生成更接近单轮锚点的回复。
关键创新:RLSTA的关键创新在于将模型的单轮能力作为多轮交互的稳定参考,并利用强化学习来对齐多轮回复与单轮锚点。这与传统的微调方法不同,后者通常直接在多轮对话数据上进行训练,容易受到上下文惯性的影响。此外,RLSTA不需要外部验证器,使其更易于部署和应用。
关键设计:在奖励计算方面,可以使用多种相似度度量方法,如余弦相似度或BLEU score。强化学习算法可以选择PPO或其他合适的算法。关键参数包括奖励函数的权重、强化学习的超参数等。论文中可能还涉及一些针对特定任务的优化策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RLSTA方法在多个数据集上显著优于标准微调和基于弃权的方法。例如,在数学问题和代码生成任务上,RLSTA的性能提升幅度超过10%。此外,RLSTA还表现出强大的跨领域泛化能力,例如在数学问题上训练的模型可以直接应用于代码生成任务,而无需重新训练。
🎯 应用场景
RLSTA方法可应用于各种需要稳定多轮交互的场景,例如智能客服、问答系统、代码生成助手等。通过提高模型在多轮对话中对新信息的整合能力,可以显著提升用户体验和任务完成效率。该方法无需外部验证器,更易于部署,具有广泛的应用前景。
📄 摘要(原文)
While LLMs demonstrate strong reasoning capabilities when provided with full information in a single turn, they exhibit substantial vulnerability in multi-turn interactions. Specifically, when information is revealed incrementally or requires updates, models frequently fail to integrate new constraints, leading to a collapse in performance compared to their single-turn baselines. We term the root cause as \emph{Contextual Inertia}: a phenomenon where models rigidly adhere to previous reasoning traces. Even when users explicitly provide corrections or new data in later turns, the model ignores them, preferring to maintain consistency with its previous (incorrect) reasoning path. To address this, we introduce \textbf{R}einforcement \textbf{L}earning with \textbf{S}ingle-\textbf{T}urn \textbf{A}nchors (\textbf{RLSTA}), a generalizable training approach designed to stabilize multi-turn interaction across diverse scenarios and domains. RLSTA leverages the model's superior single-turn capabilities as stable internal anchors to provide reward signals. By aligning multi-turn responses with these anchors, RLSTA empowers models to break contextual inertia and self-calibrate their reasoning based on the latest information. Experiments show that RLSTA significantly outperforms standard fine-tuning and abstention-based methods. Notably, our method exhibits strong cross-domain generalization (e.g., math to code) and proves effective even without external verifiers, highlighting its potential for general-domain applications.