IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning

📄 arXiv: 2601.00677v1 📥 PDF

作者: Haonan Song, Qingchen Xie, Huan Zhu, Feng Xiao, Luxi Xing, Fuzhen Li, Liu Kang, Feng Jiang, Zhiyong Zheng, Fan Yang

分类: cs.LG, cs.AI

发布日期: 2026-01-02

备注: 14 pages, 4 figures


💡 一句话要点

提出IRPO:通过强化学习扩展Bradley-Terry模型,提升生成式奖励模型效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励模型 Bradley-Terry模型 Group Relative Policy Optimization 生成式模型

📋 核心要点

  1. 成对生成式奖励模型计算复杂度高,限制了其在强化学习中的应用,尤其是在需要大量候选对象评估的场景下。
  2. IRPO将Bradley-Terry模型融入GRPO框架,为每个响应生成逐点分数,从而降低了计算复杂度,提高了评估效率。
  3. 实验表明,IRPO在多个基准测试中达到了与领先的成对GRM相当甚至更优的性能,尤其是在训练后评估中。

📝 摘要(中文)

生成式奖励模型(GRM)因其可解释性、推理时可扩展性以及通过强化学习(RL)改进的潜力,在奖励建模中备受关注。然而,广泛使用的成对GRM在与Group Relative Policy Optimization (GRPO)等RL算法集成时会产生计算瓶颈。这种瓶颈源于两个因素:(i) 获取相对分数所需的成对比较的O(n^2)时间复杂度,以及(ii) 重复采样或额外的思维链(CoT)推理以提高性能的计算开销。为了解决第一个因素,我们提出了一种新的RL框架Intergroup Relative Preference Optimization (IRPO),它将成熟的Bradley-Terry模型融入GRPO。通过为每个响应生成一个逐点分数,IRPO能够在RL训练期间有效评估任意数量的候选对象,同时保持可解释性和细粒度的奖励信号。实验结果表明,IRPO在多个基准测试中实现了逐点GRM中的最先进(SOTA)性能,其性能与当前领先的成对GRM相当。此外,我们表明IRPO在训练后评估中显著优于成对GRM。

🔬 方法详解

问题定义:论文旨在解决成对生成式奖励模型(pairwise GRMs)在与强化学习算法(如GRPO)集成时遇到的计算瓶颈问题。现有方法需要进行大量的成对比较,时间复杂度为O(n^2),导致训练效率低下,难以扩展到大规模候选集。

核心思路:论文的核心思路是将Bradley-Terry模型引入到GRPO框架中。Bradley-Terry模型是一种用于成对比较数据的统计模型,它可以为每个对象分配一个分数,从而避免了直接进行成对比较。通过为每个响应生成一个逐点分数,IRPO能够高效地评估大量候选对象。

技术框架:IRPO框架主要包含以下几个模块:1) 策略网络:生成候选响应;2) Bradley-Terry奖励模型:为每个响应生成逐点奖励分数;3) GRPO算法:利用奖励分数优化策略网络。整体流程是,策略网络生成一批候选响应,然后Bradley-Terry奖励模型为每个响应打分,最后GRPO算法利用这些分数来更新策略网络。

关键创新:IRPO的关键创新在于将Bradley-Terry模型与GRPO框架相结合,从而将成对比较问题转化为逐点打分问题,显著降低了计算复杂度。与传统的成对GRM相比,IRPO能够更高效地处理大规模候选集,并且在训练后评估中表现更佳。

关键设计:论文中Bradley-Terry模型的训练方式未知,GRPO算法的具体参数设置也未知。损失函数的设计目标是使Bradley-Terry模型生成的逐点分数能够准确反映响应的质量。网络结构方面,策略网络和奖励模型的具体结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IRPO在多个基准测试中达到了与当前领先的成对GRM相当的性能,并且在某些情况下甚至超过了它们。更重要的是,IRPO在训练后评估中显著优于成对GRM,这表明IRPO能够学习到更鲁棒、更泛化的奖励模型。具体的性能提升数据未知。

🎯 应用场景

IRPO具有广泛的应用前景,例如在对话系统、文本生成、推荐系统等领域,可以用于训练更高效、更智能的奖励模型。通过降低计算复杂度,IRPO使得强化学习能够应用于更大规模、更复杂的任务中,从而提升系统的性能和用户体验。未来,IRPO还可以与其他技术相结合,例如主动学习、元学习等,进一步提升奖励模型的训练效率和泛化能力。

📄 摘要(原文)

Generative Reward Models (GRMs) have attracted considerable research interest in reward modeling due to their interpretability, inference-time scalability, and potential for refinement through reinforcement learning (RL). However, widely used pairwise GRMs create a computational bottleneck when integrated with RL algorithms such as Group Relative Policy Optimization (GRPO). This bottleneck arises from two factors: (i) the O(n^2) time complexity of pairwise comparisons required to obtain relative scores, and (ii) the computational overhead of repeated sampling or additional chain-of-thought (CoT) reasoning to improve performance. To address the first factor, we propose Intergroup Relative Preference Optimization (IRPO), a novel RL framework that incorporates the well-established Bradley-Terry model into GRPO. By generating a pointwise score for each response, IRPO enables efficient evaluation of arbitrarily many candidates during RL training while preserving interpretability and fine-grained reward signals. Experimental results demonstrate that IRPO achieves state-of-the-art (SOTA) performance among pointwise GRMs across multiple benchmarks, with performance comparable to that of current leading pairwise GRMs. Furthermore, we show that IRPO significantly outperforms pairwise GRMs in post-training evaluations.