AMIR-GRPO: Inducing Implicit Preference Signals into GRPO
作者: Amir Hossein Yari, Fajri Koto
分类: cs.LG, cs.AI
发布日期: 2026-01-07
💡 一句话要点
AMIR-GRPO:通过隐式偏好信号增强GRPO,提升LLM在复杂推理任务中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 推理任务 策略优化 偏好学习 对比学习 数学推理
📋 核心要点
- GRPO在推理任务中存在长度偏差、低质量轨迹惩罚稀释以及忽略组内奖励排名信息等问题。
- AMIR-GRPO通过引入隐式DPO风格的对比正则化器,利用组内奖励排名信息,增强GRPO的性能。
- 实验表明,AMIR-GRPO在数学推理基准测试中优于GRPO基线,并能更好地区分正确和错误的推理链。
📝 摘要(中文)
强化学习已成为对齐大型语言模型(LLMs)以执行复杂推理任务的主要范例,其中组相对策略优化(GRPO)被广泛应用于大规模后训练。然而,GRPO在推理密集型环境中面临结构性限制:序列级优势归一化引入了系统性的长度偏差,对低质量轨迹的惩罚被稀释,并且标量目标丢弃了嵌入在组内奖励排名中的丰富的成对偏好信息。因此,来自高成本rollout的宝贵监督信息仍未得到充分利用。我们提出了AMIR-GRPO,它通过直接从组内奖励排名构建的隐式DPO风格的对比正则化器来增强GRPO,无需额外的标注。这种机制增强了对低奖励轨迹的抑制,减弱了响应级别的长度偏差,并将每个rollout组转换为更密集的监督约束集。在多个数学推理基准测试中,AMIR-GRPO始终优于强大的GRPO基线,在正确和不正确的推理链之间产生更清晰的分离,并提供了超出标准GRPO解决的实例子集的更广泛的覆盖范围增益。
🔬 方法详解
问题定义:论文旨在解决GRPO在复杂推理任务中存在的不足。现有GRPO方法在序列级优势归一化时引入长度偏差,对低质量轨迹的惩罚效果不佳,且未能充分利用组内奖励排名中蕴含的丰富偏好信息,导致监督信号利用率不高。
核心思路:AMIR-GRPO的核心思路是通过引入一个隐式的DPO风格的对比正则化器,直接从组内奖励排名中提取偏好信息,从而增强对低质量轨迹的抑制,减弱长度偏差,并将每个rollout组转化为更密集的监督约束集。
技术框架:AMIR-GRPO建立在GRPO框架之上,主要包含以下几个阶段:1) 使用LLM生成多个推理轨迹(rollouts),形成一个组;2) 对每个轨迹进行奖励评估;3) 基于组内奖励排名,构建隐式的DPO风格对比正则化器;4) 将该正则化器添加到GRPO的目标函数中,进行优化。
关键创新:AMIR-GRPO的关键创新在于引入了隐式的DPO风格对比正则化器,该正则化器无需额外标注,直接利用组内奖励排名信息,将每个rollout组转化为更密集的监督约束集。与现有方法相比,AMIR-GRPO能够更有效地利用rollout数据中的偏好信息,从而提升LLM在复杂推理任务中的性能。
关键设计:AMIR-GRPO的关键设计在于对比正则化器的构建方式。具体来说,对于每个rollout组,根据奖励排名,将排名较高的轨迹视为“正样本”,排名较低的轨迹视为“负样本”,然后使用DPO风格的对比损失函数来鼓励模型生成更接近“正样本”的轨迹,同时远离“负样本”的轨迹。损失函数的具体形式未知,但可以推测其与DPO损失函数类似,基于指数化的奖励差异来计算。
📊 实验亮点
AMIR-GRPO在多个数学推理基准测试中始终优于强大的GRPO基线。实验结果表明,AMIR-GRPO能够更清晰地区分正确和错误的推理链,并提供了超出标准GRPO解决的实例子集的更广泛的覆盖范围增益。具体的性能提升数据未知,但可以确定的是,AMIR-GRPO在数学推理任务上取得了显著的性能提升。
🎯 应用场景
AMIR-GRPO具有广泛的应用前景,可用于提升大型语言模型在各种复杂推理任务中的性能,例如数学问题求解、代码生成、逻辑推理等。该方法能够更有效地利用rollout数据中的偏好信息,从而降低训练成本,提高模型性能,并有望推动人工智能在相关领域的应用。
📄 摘要(原文)
Reinforcement learning has become the primary paradigm for aligning large language models (LLMs) on complex reasoning tasks, with group relative policy optimization (GRPO) widely used in large-scale post-training. However, GRPO faces structural limitations in reasoning-heavy settings: sequence-level advantage normalization introduces systematic length bias, penalties for low-quality trajectories are diluted, and the scalar objective discards rich pairwise preference information embedded in within-group reward rankings. As a result, valuable supervision from costly rollouts remains underutilized. We propose AMIR-GRPO, which augments GRPO with an implicit DPO-style contrastive regularizer constructed directly from intra-group reward rankings, requiring no additional annotations. This mechanism amplifies suppression of low-reward trajectories, attenuates response-level length bias, and transforms each rollout group into a denser set of supervision constraints. Across multiple mathematical reasoning benchmarks, AMIR-GRPO consistently outperforms strong GRPO baselines, yields clearer separation between correct and incorrect reasoning chains, and delivers broader coverage gains beyond the subset of instances solved by standard GRPO.