ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models

📄 arXiv: 2603.28204 📥 PDF

作者: Song Yu, Li Li, Wenwen Zhao, Zhisheng Yang

分类: cs.LG, cs.AI

发布日期: 2026-04-06


💡 一句话要点

ERPO:针对大型推理模型的Token级熵正则化策略优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理 策略优化 熵正则化

📋 核心要点

  1. 现有GRPO方法在推理链上采用统一的序列级优势分配,忽略了token间的信息异质性,导致探索不足和推理质量下降。
  2. ERPO通过引入熵感知门控、桶式隐式归一化和结果锚定优势合成,实现了token级别的细粒度策略优化,提升探索能力。
  3. 实验表明,ERPO在数学推理任务上显著优于GRPO,生成更简洁、稳健的推理路径,并达到与更大模型相当的性能。

📝 摘要(中文)

从可验证奖励中进行强化学习显著提升了大型语言模型的推理能力。然而,群体相对策略优化(GRPO)通常为所有token分配统一的序列级优势,忽略了推理链中固有的信息异质性。这种粗粒度的信用分配导致过早的熵崩溃,并鼓励模型生成冗余、低质量的推理路径。通过系统的实证分析,我们识别出关键决策枢纽(CDP):策略轨迹对扰动最敏感的瞬态高熵状态。这些枢纽代表了“岔路口”,有效的多路径探索至关重要,但通常被统一的优势信号抑制。基于这些见解,我们提出了熵正则化策略优化(ERPO),将优化重点从粗粒度序列转移到细粒度token动态。ERPO引入了三个协同组件:(i)熵感知门控,自适应地放大CDP的探索,以促进多样化的路径发现;(ii)基于桶的隐式归一化,通过对齐token进度窗口来减轻难度偏差;(iii)结果锚定的优势合成,通过结果驱动的锚点重新加权token级信号。在具有竞争力的数学基准上的大量实验表明,ERPO显著优于GRPO。值得注意的是,ERPO不仅提高了推理准确性,还产生了更简洁、更稳健的推导路径,同时实现了与参数多几个数量级的大型模型相当的性能。

🔬 方法详解

问题定义:现有基于强化学习的推理模型,特别是使用GRPO的方法,在进行策略优化时,通常将整个推理序列视为一个整体,并赋予每个token相同的奖励信号。这种粗粒度的处理方式忽略了推理过程中不同token的重要性差异,导致模型在关键决策点(CDP)的探索不足,容易陷入局部最优,生成冗余且低质量的推理路径。

核心思路:ERPO的核心思路是将优化粒度从序列级别细化到token级别,通过识别并重点关注推理过程中的关键决策枢纽(CDP),自适应地调整策略探索的力度。通过增加CDP处的探索,鼓励模型发现更多样化的推理路径,从而提高推理的准确性和鲁棒性。

技术框架:ERPO包含三个主要模块:1) 熵感知门控(Entropy-aware Gating):用于识别CDP,并根据token的熵值自适应地调整探索力度。2) 基于桶的隐式归一化(Bucket-based Implicit Normalization):通过对齐不同推理路径的token进度窗口,缓解难度偏差,确保模型在不同难度级别的token上都能有效学习。3) 结果锚定的优势合成(Result-anchored Advantage Synthesis):利用最终结果作为锚点,重新加权token级别的奖励信号,使模型更加关注对最终结果有贡献的token。

关键创新:ERPO的关键创新在于将策略优化的粒度细化到token级别,并引入熵的概念来指导探索。通过熵感知门控,ERPO能够自适应地调整策略探索的力度,重点关注推理过程中的关键决策点。与传统的序列级优化方法相比,ERPO能够更有效地利用奖励信号,提高推理的准确性和鲁棒性。

关键设计:熵感知门控使用token的熵值作为权重,放大CDP的探索。基于桶的隐式归一化将推理过程划分为多个桶,并对齐不同路径的token进度。结果锚定的优势合成使用最终结果的奖励作为锚点,重新计算每个token的优势值。具体的损失函数设计和网络结构细节在论文中进行了详细描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ERPO在数学推理基准测试中显著优于GRPO。ERPO不仅提高了推理准确性,还生成了更简洁、更稳健的推理路径。在某些任务上,ERPO的性能甚至可以与参数量大几个数量级的模型相媲美。例如,ERPO在XXX数据集上达到了XX%的准确率,相比GRPO提升了YY%。

🎯 应用场景

ERPO具有广泛的应用前景,可应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理等。通过提高推理的准确性和鲁棒性,ERPO可以帮助大型语言模型更好地理解和解决复杂问题,从而在教育、科研、金融等领域发挥更大的作用。未来,ERPO可以进一步扩展到其他模态,例如视觉推理和多模态推理。

📄 摘要(原文)

Reinforcement learning from verifiable rewards has significantly advanced the reasoning capabilities of large language models. However, Group Relative Policy Optimization (GRPO) typically assigns a uniform, sequence-level advantage to all tokens, thereby overlooking the intrinsic information heterogeneity along reasoning chains. We show that this coarse-grained credit assignment leads to premature entropy collapse and encourages the model to generate redundant, low-quality reasoning paths. Through systematic empirical analysis, we identify Critical Decision Pivots (CDPs): transient high-entropy states where the policy's trajectory is most sensitive to perturbations. These pivots represent the "forks in the road" where effective multi-path exploration is most crucial yet often suppressed by uniform advantage signals. Building on these insights, we propose Entropy-Regulated Policy Optimization (ERPO), which transitions the optimization focus from coarse sequences to fine-grained token dynamics. ERPO introduces three synergistic components: (i) Entropy-aware Gating, which adaptively amplifies exploration at CDPs to facilitate diverse path discovery; (ii) Bucket-based Implicit Normalization, which mitigates difficulty bias by aligning token progress windows; and (iii) Result-anchored Advantage Synthesis, which re-weights token-level signals via outcome-driven anchors. Extensive experiments on competitive mathematical benchmarks demonstrate that ERPO significantly outperforms GRPO. Notably, ERPO not only boosts reasoning accuracy but also yields significantly more concise and robust derivation paths, while achieving performance comparable to large models with orders of magnitude more parameters.