LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

📄 arXiv: 2603.02146v1 📥 PDF

作者: Guanzheng Chen, Michael Qizhe Shieh, Lidong Bing

分类: cs.CL

发布日期: 2026-03-02

备注: ICLR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

LongRLVR:通过可验证上下文奖励解决长文本强化学习中的梯度消失问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本强化学习 上下文奖励 梯度消失 可验证奖励 大型语言模型 上下文Grounding 信息检索

📋 核心要点

  1. 现有 RLVR 方法在长文本场景中,由于仅依赖最终答案奖励,导致模型难以有效识别相关证据,出现梯度消失问题。
  2. LongRLVR 引入可验证的上下文奖励,作为辅助信号,直接激励模型选择正确的 grounding 信息,从而提供更强的学习梯度。
  3. 实验结果表明,LongRLVR 在长文本基准测试中显著优于标准 RLVR,有效提升了 Qwen 和 LLaMA 模型在长文本任务上的性能。

📝 摘要(中文)

具有可验证奖励的强化学习(RLVR)通过针对事实结果优化大型语言模型(LLM),显著提升了其推理能力。然而,这种范式在长文本场景中失效,因为它依赖于内部参数知识,不适用于需要上下文 grounding 的任务,即查找和推理外部提供的信息的能力。我们发现,仅基于最终答案的奖励过于稀疏,无法有效地指导模型识别相关证据。我们正式证明,仅结果奖励会导致上下文 grounding 过程的显著梯度消失,使得学习难以处理。为了克服这个瓶颈,我们引入了 LongRLVR,通过密集且可验证的上下文奖励来增强稀疏的答案奖励。这种辅助信号直接激励模型选择正确的 grounding 信息,提供强大的学习梯度,从而解决潜在的优化挑战。我们在使用 Qwen 和 LLaMA 模型进行的具有挑战性的长文本基准测试中验证了我们的方法。LongRLVR 在所有模型和基准测试中始终如一地显著优于标准 RLVR,例如,将 14B 模型在 RULER-QA 上的分数从 73.17 提高到 88.90,在 LongBench v2 上的分数从 39.8 提高到 46.5。我们的工作表明,显式奖励 grounding 过程是释放 LLM 在长文本应用中全部推理潜力的关键且有效的策略。我们的代码可在 https://github.com/real-absolute-AI/LongRLVR 获取。

🔬 方法详解

问题定义:论文旨在解决长文本强化学习中,由于奖励稀疏导致的梯度消失问题。现有 RLVR 方法在处理需要上下文 grounding 的长文本任务时,仅依赖最终答案的奖励,无法有效指导模型从大量上下文中找到相关信息,导致模型难以学习。

核心思路:论文的核心思路是通过引入密集且可验证的上下文奖励,来增强稀疏的答案奖励。这种辅助奖励直接激励模型选择正确的 grounding 信息,从而提供更强的学习梯度,解决梯度消失问题。

技术框架:LongRLVR 的整体框架是在标准 RLVR 的基础上,增加了一个上下文奖励模块。该模块负责评估模型选择的上下文信息是否正确,并给予相应的奖励。整体流程包括:1) 模型接收长文本输入和问题;2) 模型选择相关的上下文信息;3) 模型基于上下文信息生成答案;4) 计算答案奖励和上下文奖励;5) 使用总奖励更新模型参数。

关键创新:LongRLVR 的关键创新在于引入了可验证的上下文奖励。与仅依赖最终答案奖励的传统 RLVR 方法不同,LongRLVR 显式地奖励模型选择正确的上下文信息,从而解决了长文本场景下的梯度消失问题。

关键设计:上下文奖励的设计是 LongRLVR 的关键。具体实现方式未知,但可以推测可能使用了某种形式的监督学习或对比学习,来训练一个奖励模型,用于评估模型选择的上下文信息与正确答案之间的相关性。损失函数是答案奖励和上下文奖励的加权和,权重需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LongRLVR 在 RULER-QA 和 LongBench v2 等长文本基准测试中取得了显著的性能提升。例如,使用 LongRLVR 将 14B 模型在 RULER-QA 上的分数从 73.17 提高到 88.90,在 LongBench v2 上的分数从 39.8 提高到 46.5。这些结果表明,LongRLVR 能够有效解决长文本强化学习中的梯度消失问题,显著提升模型的推理能力。

🎯 应用场景

LongRLVR 的潜在应用领域包括长文本问答、文档摘要、信息检索等。通过提升模型在长文本场景下的推理能力,LongRLVR 可以帮助用户更有效地从大量信息中提取关键信息,提高工作效率。未来,LongRLVR 可以应用于更复杂的长文本任务,例如法律文档分析、医学报告解读等。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capabilities of Large Language Models (LLMs) by optimizing them against factual outcomes. However, this paradigm falters in long-context scenarios, as its reliance on internal parametric knowledge is ill-suited for tasks requiring contextual grounding--the ability to find and reason over externally provided information. We identify a key reason for this failure: a reward based solely on the final answer is too sparse to effectively guide the model for identifying relevant evidence. We formally prove that the outcome-only reward leads to significant vanishing gradients for the context grounding process, rendering learning intractable. To overcome this bottleneck, we introduce LongRLVR to augment the sparse answer reward with a dense and verifiable context reward. This auxiliary signal directly incentivizes the model for selecting the correct grounding information, providing a robust learning gradient that solves the underlying optimization challenge. We validate our method on challenging long-context benchmarks using Qwen and LLaMA models. LongRLVR consistently and significantly outperforms the standard RLVR across all models and benchmarks, e.g., boosting a 14B model's scores on RULER-QA from 73.17 to 88.90 and on LongBench v2 from 39.8 to 46.5. Our work demonstrates that explicitly rewarding the grounding process is a critical and effective strategy for unlocking the full reasoning potential of LLMs in long-context applications. Our code is available at https://github.com/real-absolute-AI/LongRLVR.