ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization
作者: Shijie Zhang, Kevin Zhang, Zheyuan Gu, Xiang Guo, Rujun Guo, Shaoyu Liu, Guanjun Jiang, Xiaozhao Wang
分类: cs.LG
发布日期: 2026-01-07
💡 一句话要点
提出ETR动态调整信任域,优化基于结果导向的强化学习策略。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 策略优化 信任域 结果导向学习 大型语言模型
📋 核心要点
- GRPO在结果导向强化学习中应用广泛,但其静态信任域约束忽略了优势信号的异质性,导致次优性能。
- ETR通过双层弹性机制动态调整信任域,微观层面基于优势大小,宏观层面基于组方差,提升信号利用率。
- 在AIME和MATH基准测试中,ETR显著优于GRPO,提高了准确性并缓解了策略熵的崩溃问题。
📝 摘要(中文)
可验证奖励的强化学习(RLVR)已成为释放大型语言模型推理能力的重要范例。目前,Group Relative Policy Optimization (GRPO)因其稳定的训练和无评论员的效率而成为该领域的主导算法。然而,GRPO存在结构性限制:它对所有样本施加统一的静态信任域约束。这种设计隐含地假设了信号同质性,这与结果驱动学习的异构性不符,在结果驱动学习中,优势的大小和方差波动很大。因此,静态约束无法充分利用高质量信号,也无法充分抑制噪声,经常导致快速的熵崩溃。为了解决这个问题,我们提出了弹性信任域(ETR),这是一种动态机制,使优化约束与信号质量对齐。ETR通过双层弹性构建信号感知的landscape:在微观层面,它根据优势大小缩放裁剪边界,以加速从高置信度路径的学习;在宏观层面,它利用组方差来隐式地为最佳学习区域中的任务分配更大的更新预算。在AIME和MATH基准上的大量实验表明,ETR始终优于GRPO,在有效缓解策略熵退化的同时,实现了更高的准确性,从而确保了持续的探索。
🔬 方法详解
问题定义:论文旨在解决基于结果导向的强化学习中,现有GRPO算法采用静态信任域约束所带来的问题。GRPO假设所有样本的信号是同质的,这与实际情况不符,导致高质量信号未能充分利用,噪声信号未能有效抑制,最终影响策略学习的效果和稳定性。尤其是在优势函数值差异较大的情况下,静态信任域会限制高质量样本的学习,同时放任低质量样本的更新,导致策略熵快速崩溃。
核心思路:论文的核心思路是引入一种动态的信任域调整机制,即Elastic Trust Regions (ETR)。ETR的核心思想是根据样本的信号质量(优势函数值的大小和方差)来动态调整信任域的大小,从而更好地利用高质量信号,抑制噪声信号,提高策略学习的效率和稳定性。通过这种方式,ETR能够更有效地探索状态空间,并学习到更优的策略。
技术框架:ETR的技术框架主要包含两个层次的弹性调整:微观层面的优势感知裁剪和宏观层面的组方差引导更新。微观层面,ETR根据每个样本的优势函数值的大小,动态调整裁剪边界,优势值越大,裁剪边界越大,允许更大的更新幅度。宏观层面,ETR利用组方差来评估每个任务的学习状态,方差越大,说明学习效果越好,分配的更新预算也越大。这两个层次的调整共同作用,使得信任域能够更好地适应不同样本和任务的信号质量。
关键创新:ETR最关键的创新在于其动态调整信任域的机制。与传统的静态信任域方法不同,ETR能够根据样本的信号质量自适应地调整信任域的大小,从而更好地利用高质量信号,抑制噪声信号。这种动态调整机制能够有效地提高策略学习的效率和稳定性,并缓解策略熵的崩溃问题。此外,ETR的设计无需额外的critic网络,保持了GRPO的critic-free的优势。
关键设计:在微观层面,ETR使用一个缩放因子来调整裁剪边界,该缩放因子与优势函数值的大小成正比。具体来说,对于优势值较大的样本,ETR会允许更大的更新幅度,从而加速学习。在宏观层面,ETR使用组方差来评估每个任务的学习状态,并根据方差的大小来分配更新预算。方差越大,分配的更新预算也越大。此外,ETR还使用了一个熵正则化项来防止策略熵的崩溃。具体的参数设置需要根据具体的任务进行调整。
📊 实验亮点
实验结果表明,ETR在AIME和MATH基准测试中均优于GRPO。在AIME测试中,ETR的准确率显著高于GRPO,并且能够有效缓解策略熵的崩溃问题。在MATH测试中,ETR也取得了类似的性能提升,证明了其在不同任务中的泛化能力。这些结果表明,ETR能够有效地利用高质量信号,抑制噪声信号,从而提高策略学习的效率和稳定性。
🎯 应用场景
ETR算法可广泛应用于需要复杂推理和决策的强化学习任务中,尤其是在大型语言模型与环境交互的场景下,例如解决数学问题、进行代码生成等。该算法能够提升模型的学习效率和稳定性,使其在复杂任务中表现更佳,具有重要的实际应用价值和潜力。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an important paradigm for unlocking reasoning capabilities in large language models, exemplified by the success of OpenAI o1 and DeepSeek-R1. Currently, Group Relative Policy Optimization (GRPO) stands as the dominant algorithm in this domain due to its stable training and critic-free efficiency. However, we argue that GRPO suffers from a structural limitation: it imposes a uniform, static trust region constraint across all samples. This design implicitly assumes signal homogeneity, a premise misaligned with the heterogeneous nature of outcome-driven learning, where advantage magnitudes and variances fluctuate significantly. Consequently, static constraints fail to fully exploit high-quality signals while insufficiently suppressing noise, often precipitating rapid entropy collapse. To address this, we propose \textbf{E}lastic \textbf{T}rust \textbf{R}egions (\textbf{ETR}), a dynamic mechanism that aligns optimization constraints with signal quality. ETR constructs a signal-aware landscape through dual-level elasticity: at the micro level, it scales clipping boundaries based on advantage magnitude to accelerate learning from high-confidence paths; at the macro level, it leverages group variance to implicitly allocate larger update budgets to tasks in the optimal learning zone. Extensive experiments on AIME and MATH benchmarks demonstrate that ETR consistently outperforms GRPO, achieving superior accuracy while effectively mitigating policy entropy degradation to ensure sustained exploration.