IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning

作者: Haonan Song, Qingchen Xie, Huan Zhu, Feng Xiao, Luxi Xing, Fuzhen Li, Liu Kang, Feng Jiang, Zhiyong Zheng, Fan Yang

分类: cs.LG, cs.AI

发布日期: 2026-01-02

备注: 14 pages, 4 figures

💡 一句话要点

提出IRPO：通过强化学习扩展Bradley-Terry模型，提升生成式奖励模型效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励模型 Bradley-Terry模型 Group Relative Policy Optimization 生成式模型

📋 核心要点

成对生成式奖励模型计算复杂度高，限制了其在强化学习中的应用，尤其是在需要大量候选对象评估的场景下。
IRPO将Bradley-Terry模型融入GRPO框架，为每个响应生成逐点分数，从而降低了计算复杂度，提高了评估效率。
实验表明，IRPO在多个基准测试中达到了与领先的成对GRM相当甚至更优的性能，尤其是在训练后评估中。

📝 摘要（中文）

生成式奖励模型(GRM)因其可解释性、推理时可扩展性以及通过强化学习(RL)改进的潜力，在奖励建模中备受关注。然而，广泛使用的成对GRM在与Group Relative Policy Optimization (GRPO)等RL算法集成时会产生计算瓶颈。这种瓶颈源于两个因素：(i) 获取相对分数所需的成对比较的O(n^2)时间复杂度，以及(ii) 重复采样或额外的思维链(CoT)推理以提高性能的计算开销。为了解决第一个因素，我们提出了一种新的RL框架Intergroup Relative Preference Optimization (IRPO)，它将成熟的Bradley-Terry模型融入GRPO。通过为每个响应生成一个逐点分数，IRPO能够在RL训练期间有效评估任意数量的候选对象，同时保持可解释性和细粒度的奖励信号。实验结果表明，IRPO在多个基准测试中实现了逐点GRM中的最先进(SOTA)性能，其性能与当前领先的成对GRM相当。此外，我们表明IRPO在训练后评估中显著优于成对GRM。

🔬 方法详解

问题定义：论文旨在解决成对生成式奖励模型（pairwise GRMs）在与强化学习算法（如GRPO）集成时遇到的计算瓶颈问题。现有方法需要进行大量的成对比较，时间复杂度为O(n^2)，导致训练效率低下，难以扩展到大规模候选集。

核心思路：论文的核心思路是将Bradley-Terry模型引入到GRPO框架中。Bradley-Terry模型是一种用于成对比较数据的统计模型，它可以为每个对象分配一个分数，从而避免了直接进行成对比较。通过为每个响应生成一个逐点分数，IRPO能够高效地评估大量候选对象。

技术框架：IRPO框架主要包含以下几个模块：1) 策略网络：生成候选响应；2) Bradley-Terry奖励模型：为每个响应生成逐点奖励分数；3) GRPO算法：利用奖励分数优化策略网络。整体流程是，策略网络生成一批候选响应，然后Bradley-Terry奖励模型为每个响应打分，最后GRPO算法利用这些分数来更新策略网络。

关键创新：IRPO的关键创新在于将Bradley-Terry模型与GRPO框架相结合，从而将成对比较问题转化为逐点打分问题，显著降低了计算复杂度。与传统的成对GRM相比，IRPO能够更高效地处理大规模候选集，并且在训练后评估中表现更佳。

关键设计：论文中Bradley-Terry模型的训练方式未知，GRPO算法的具体参数设置也未知。损失函数的设计目标是使Bradley-Terry模型生成的逐点分数能够准确反映响应的质量。网络结构方面，策略网络和奖励模型的具体结构未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，IRPO在多个基准测试中达到了与当前领先的成对GRM相当的性能，并且在某些情况下甚至超过了它们。更重要的是，IRPO在训练后评估中显著优于成对GRM，这表明IRPO能够学习到更鲁棒、更泛化的奖励模型。具体的性能提升数据未知。

🎯 应用场景

IRPO具有广泛的应用前景，例如在对话系统、文本生成、推荐系统等领域，可以用于训练更高效、更智能的奖励模型。通过降低计算复杂度，IRPO使得强化学习能够应用于更大规模、更复杂的任务中，从而提升系统的性能和用户体验。未来，IRPO还可以与其他技术相结合，例如主动学习、元学习等，进一步提升奖励模型的训练效率和泛化能力。

📄 摘要（原文）

Generative Reward Models (GRMs) have attracted considerable research interest in reward modeling due to their interpretability, inference-time scalability, and potential for refinement through reinforcement learning (RL). However, widely used pairwise GRMs create a computational bottleneck when integrated with RL algorithms such as Group Relative Policy Optimization (GRPO). This bottleneck arises from two factors: (i) the O(n^2) time complexity of pairwise comparisons required to obtain relative scores, and (ii) the computational overhead of repeated sampling or additional chain-of-thought (CoT) reasoning to improve performance. To address the first factor, we propose Intergroup Relative Preference Optimization (IRPO), a novel RL framework that incorporates the well-established Bradley-Terry model into GRPO. By generating a pointwise score for each response, IRPO enables efficient evaluation of arbitrarily many candidates during RL training while preserving interpretability and fine-grained reward signals. Experimental results demonstrate that IRPO achieves state-of-the-art (SOTA) performance among pointwise GRMs across multiple benchmarks, with performance comparable to that of current leading pairwise GRMs. Furthermore, we show that IRPO significantly outperforms pairwise GRMs in post-training evaluations.

IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册