LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

作者: Guanzheng Chen, Michael Qizhe Shieh, Lidong Bing

分类: cs.CL

发布日期: 2026-03-02

备注: ICLR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

LongRLVR：通过可验证上下文奖励解决长文本强化学习中的梯度消失问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本强化学习 上下文奖励 梯度消失 可验证奖励 大型语言模型 上下文Grounding 信息检索

📋 核心要点

现有 RLVR 方法在长文本场景中，由于仅依赖最终答案奖励，导致模型难以有效识别相关证据，出现梯度消失问题。
LongRLVR 引入可验证的上下文奖励，作为辅助信号，直接激励模型选择正确的 grounding 信息，从而提供更强的学习梯度。
实验结果表明，LongRLVR 在长文本基准测试中显著优于标准 RLVR，有效提升了 Qwen 和 LLaMA 模型在长文本任务上的性能。

📝 摘要（中文）

具有可验证奖励的强化学习（RLVR）通过针对事实结果优化大型语言模型（LLM），显著提升了其推理能力。然而，这种范式在长文本场景中失效，因为它依赖于内部参数知识，不适用于需要上下文 grounding 的任务，即查找和推理外部提供的信息的能力。我们发现，仅基于最终答案的奖励过于稀疏，无法有效地指导模型识别相关证据。我们正式证明，仅结果奖励会导致上下文 grounding 过程的显著梯度消失，使得学习难以处理。为了克服这个瓶颈，我们引入了 LongRLVR，通过密集且可验证的上下文奖励来增强稀疏的答案奖励。这种辅助信号直接激励模型选择正确的 grounding 信息，提供强大的学习梯度，从而解决潜在的优化挑战。我们在使用 Qwen 和 LLaMA 模型进行的具有挑战性的长文本基准测试中验证了我们的方法。LongRLVR 在所有模型和基准测试中始终如一地显著优于标准 RLVR，例如，将 14B 模型在 RULER-QA 上的分数从 73.17 提高到 88.90，在 LongBench v2 上的分数从 39.8 提高到 46.5。我们的工作表明，显式奖励 grounding 过程是释放 LLM 在长文本应用中全部推理潜力的关键且有效的策略。我们的代码可在 https://github.com/real-absolute-AI/LongRLVR 获取。

🔬 方法详解

问题定义：论文旨在解决长文本强化学习中，由于奖励稀疏导致的梯度消失问题。现有 RLVR 方法在处理需要上下文 grounding 的长文本任务时，仅依赖最终答案的奖励，无法有效指导模型从大量上下文中找到相关信息，导致模型难以学习。

核心思路：论文的核心思路是通过引入密集且可验证的上下文奖励，来增强稀疏的答案奖励。这种辅助奖励直接激励模型选择正确的 grounding 信息，从而提供更强的学习梯度，解决梯度消失问题。

技术框架：LongRLVR 的整体框架是在标准 RLVR 的基础上，增加了一个上下文奖励模块。该模块负责评估模型选择的上下文信息是否正确，并给予相应的奖励。整体流程包括：1) 模型接收长文本输入和问题；2) 模型选择相关的上下文信息；3) 模型基于上下文信息生成答案；4) 计算答案奖励和上下文奖励；5) 使用总奖励更新模型参数。

关键创新：LongRLVR 的关键创新在于引入了可验证的上下文奖励。与仅依赖最终答案奖励的传统 RLVR 方法不同，LongRLVR 显式地奖励模型选择正确的上下文信息，从而解决了长文本场景下的梯度消失问题。

关键设计：上下文奖励的设计是 LongRLVR 的关键。具体实现方式未知，但可以推测可能使用了某种形式的监督学习或对比学习，来训练一个奖励模型，用于评估模型选择的上下文信息与正确答案之间的相关性。损失函数是答案奖励和上下文奖励的加权和，权重需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

LongRLVR 在 RULER-QA 和 LongBench v2 等长文本基准测试中取得了显著的性能提升。例如，使用 LongRLVR 将 14B 模型在 RULER-QA 上的分数从 73.17 提高到 88.90，在 LongBench v2 上的分数从 39.8 提高到 46.5。这些结果表明，LongRLVR 能够有效解决长文本强化学习中的梯度消失问题，显著提升模型的推理能力。

🎯 应用场景

LongRLVR 的潜在应用领域包括长文本问答、文档摘要、信息检索等。通过提升模型在长文本场景下的推理能力，LongRLVR 可以帮助用户更有效地从大量信息中提取关键信息，提高工作效率。未来，LongRLVR 可以应用于更复杂的长文本任务，例如法律文档分析、医学报告解读等。

📄 摘要（原文）

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capabilities of Large Language Models (LLMs) by optimizing them against factual outcomes. However, this paradigm falters in long-context scenarios, as its reliance on internal parametric knowledge is ill-suited for tasks requiring contextual grounding--the ability to find and reason over externally provided information. We identify a key reason for this failure: a reward based solely on the final answer is too sparse to effectively guide the model for identifying relevant evidence. We formally prove that the outcome-only reward leads to significant vanishing gradients for the context grounding process, rendering learning intractable. To overcome this bottleneck, we introduce LongRLVR to augment the sparse answer reward with a dense and verifiable context reward. This auxiliary signal directly incentivizes the model for selecting the correct grounding information, providing a robust learning gradient that solves the underlying optimization challenge. We validate our method on challenging long-context benchmarks using Qwen and LLaMA models. LongRLVR consistently and significantly outperforms the standard RLVR across all models and benchmarks, e.g., boosting a 14B model's scores on RULER-QA from 73.17 to 88.90 and on LongBench v2 from 39.8 to 46.5. Our work demonstrates that explicitly rewarding the grounding process is a critical and effective strategy for unlocking the full reasoning potential of LLMs in long-context applications. Our code is available at https://github.com/real-absolute-AI/LongRLVR.

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理