Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

📄 arXiv: 2603.01571v1 📥 PDF

作者: Qiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma

分类: cs.AI

发布日期: 2026-03-02

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

Mix-GRM:结合广度和深度CoT的生成式奖励模型,提升评估可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式奖励模型 思维链 广度CoT 深度CoT 强化学习 监督微调 可验证奖励

📋 核心要点

  1. 现有生成式奖励模型依赖非结构化CoT长度扩展,忽略了广度和深度CoT推理机制的差异。
  2. Mix-GRM通过模块化流程将原始推理转化为结构化的广度和深度CoT,并使用SFT和RLVR进行优化。
  3. 实验表明Mix-GRM在多个基准测试中超越现有模型,且RLVR能使模型根据任务需求自适应推理。

📝 摘要(中文)

生成式奖励模型(GRM)的最新进展表明,扩展思维链(CoT)推理的长度可以显著提高评估的可靠性。然而,目前的工作主要依赖于非结构化的长度扩展,忽略了不同推理机制的不同功效:广度CoT(B-CoT,即多维原则覆盖)和深度CoT(D-CoT,即实质性判断的合理性)。为了解决这个问题,我们引入了Mix-GRM框架,该框架通过模块化合成管道将原始原理重新配置为结构化的B-CoT和D-CoT,随后采用监督微调(SFT)和基于可验证奖励的强化学习(RLVR)来内化和优化这些机制。全面的实验表明,Mix-GRM在五个基准测试中建立了新的最先进水平,平均超过领先的开源RM 8.2%。我们的结果揭示了推理的明显差异:B-CoT有利于主观偏好任务,而D-CoT擅长客观正确性任务。因此,将推理机制与任务错位会直接降低性能。此外,我们证明RLVR充当了一个切换放大器,诱导了一种涌现的极化,模型自发地分配其推理风格以匹配任务需求。合成数据和模型已在Hugging Face上发布,代码已在Github上发布。

🔬 方法详解

问题定义:现有生成式奖励模型(GRM)在利用思维链(CoT)进行奖励评估时,主要通过简单地增加CoT的长度来提升性能,而忽略了CoT推理过程本身的多样性。这种非结构化的长度扩展方式无法有效区分和利用不同类型的推理机制,例如广度CoT(B-CoT)和深度CoT(D-CoT),导致模型在不同类型的任务上表现不佳。现有方法的痛点在于缺乏对CoT推理过程的细粒度控制和优化。

核心思路:Mix-GRM的核心思路是将原始的、非结构化的CoT推理过程分解为两种互补的推理机制:B-CoT和D-CoT。B-CoT侧重于从多个维度覆盖原则,而D-CoT则侧重于进行深入的、实质性的判断。通过将这两种机制显式地建模并结合起来,Mix-GRM能够更有效地利用CoT推理的优势,从而提升奖励模型的性能。这种设计旨在使模型能够根据任务的特点,自适应地选择合适的推理风格。

技术框架:Mix-GRM的整体框架包含以下几个主要模块:1) CoT重配置模块:将原始的CoT推理过程转化为结构化的B-CoT和D-CoT。2) 监督微调(SFT)模块:使用合成的B-CoT和D-CoT数据对模型进行微调,使其能够内化这两种推理机制。3) 基于可验证奖励的强化学习(RLVR)模块:利用可验证的奖励信号,进一步优化模型的推理策略,使其能够根据任务需求自适应地选择合适的推理风格。

关键创新:Mix-GRM最重要的技术创新点在于它显式地建模并结合了B-CoT和D-CoT这两种不同的推理机制。与现有方法简单地增加CoT长度不同,Mix-GRM通过结构化的方式组织和利用CoT推理,从而能够更有效地提升奖励模型的性能。此外,RLVR模块的引入使得模型能够根据任务需求自适应地选择推理风格,进一步提升了模型的泛化能力。

关键设计:在CoT重配置模块中,论文设计了一个模块化的合成管道,用于生成结构化的B-CoT和D-CoT数据。在RLVR模块中,论文利用可验证的奖励信号来指导模型的训练,使得模型能够学习到根据任务需求选择合适的推理风格。具体的损失函数和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mix-GRM在五个基准测试中取得了最先进的结果,平均超过领先的开源奖励模型8.2%。实验结果表明,B-CoT更适合主观偏好任务,而D-CoT更适合客观正确性任务。此外,RLVR能够促使模型根据任务需求自适应地选择推理风格,进一步提升了模型的性能。

🎯 应用场景

Mix-GRM具有广泛的应用前景,可应用于对话系统、问答系统、文本摘要等领域,提升模型生成内容的质量和可靠性。通过优化奖励模型,可以更好地对生成模型的行为进行引导和控制,从而生成更符合人类偏好和需求的文本内容。该研究对于提升人工智能系统的安全性和可信度具有重要意义。

📄 摘要(原文)

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at \href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face}, and the code is released at \href{https://github.com/Don-Joey/Mix-GRM}{Github}.