Clip-Low Increases Entropy and Clip-High Decreases Entropy in Reinforcement Learning of Large Language Models
作者: Jaesung R. Park, Junsu Kim, Gyeongman Kim, Jinyoung Jo, Sean Choi, Jaewoong Cho, Ernest K. Ryu
分类: cs.LG
发布日期: 2025-09-30
💡 一句话要点
揭示PPO/GRPO中裁剪机制对LLM强化学习熵的影响,提出clip-low增加探索。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 熵崩溃 PPO GRPO 裁剪机制 探索 RLVR
📋 核心要点
- RLVR方法在提升LLM推理能力时易发生熵崩溃,限制了模型的探索能力和训练效果。
- 论文核心思想是分析PPO/GRPO中裁剪机制对熵的影响,发现clip-low增加熵,clip-high降低熵。
- 实验表明,通过调整clip-low参数,可以有效控制熵,促进探索,并防止RLVR训练中的熵崩溃。
📝 摘要(中文)
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型(LLM)推理能力的主流方法。然而,RLVR容易出现熵崩溃,导致LLM迅速收敛到近乎确定性的形式,阻碍了长期强化学习训练中的探索和进展。本文揭示了PPO和GRPO中的裁剪机制会对熵产生偏差。通过理论和实证分析,我们表明clip-low会增加熵,而clip-high会降低熵。此外,在标准裁剪参数下,clip-high的影响占主导地位,即使在为RL算法提供纯粹随机奖励时,也会导致整体熵降低。我们的发现突出了RLVR中一个被忽视的混淆因素:裁剪机制独立于奖励信号影响熵,进而影响推理行为。此外,我们的分析表明,可以有意识地使用裁剪来控制熵。具体来说,通过更积极的clip-low值,可以增加熵,促进探索,并最终防止RLVR训练中的熵崩溃。
🔬 方法详解
问题定义:论文旨在解决大型语言模型强化学习训练过程中出现的熵崩溃问题。现有方法,特别是基于PPO和GRPO的RLVR,虽然在提升LLM推理能力方面表现出色,但容易陷入局部最优,缺乏足够的探索,导致模型过早收敛,无法充分利用奖励信号。现有方法的痛点在于对影响熵的关键因素缺乏深入理解,难以有效控制模型的探索行为。
核心思路:论文的核心思路是深入分析PPO和GRPO中裁剪机制对策略熵的影响。作者发现,clip-low和clip-high分别对熵产生相反的影响:clip-low倾向于增加熵,促进探索;而clip-high则倾向于降低熵,使策略更加确定。通过精确控制这两个参数,可以有效地调节策略的探索程度,避免熵崩溃。
技术框架:论文主要通过理论分析和实验验证来支持其观点。理论分析部分,作者推导了裁剪机制对策略梯度和熵的影响,揭示了clip-low和clip-high的不同作用。实验部分,作者在不同的任务和数据集上,通过调整clip-low和clip-high的值,观察策略熵的变化,并评估模型性能。整体流程包括:1)理论分析裁剪机制对熵的影响;2)设计实验验证理论分析;3)提出通过调整clip-low来防止熵崩溃的策略。
关键创新:论文最重要的技术创新点在于揭示了PPO和GRPO中裁剪机制对策略熵的隐蔽影响。以往的研究往往忽略了裁剪机制对探索行为的潜在影响,而本文首次明确指出clip-low和clip-high分别对熵产生相反的作用,并提出了通过调整clip-low来控制熵、促进探索的策略。这为解决LLM强化学习中的熵崩溃问题提供了新的思路。
关键设计:论文的关键设计包括:1)详细的理论推导,分析裁剪机制如何影响策略梯度和熵;2)精心设计的实验,通过控制clip-low和clip-high的值,观察策略熵的变化;3)使用标准PPO和GRPO算法,确保结果的可复现性和通用性。关键参数设置包括clip-low和clip-high的值,以及学习率、奖励系数等超参数。损失函数采用标准的PPO或GRPO损失函数,网络结构则根据具体的LLM任务进行选择。
📊 实验亮点
实验结果表明,在标准裁剪参数下,clip-high的影响占主导地位,导致整体熵降低。通过增加clip-low的值,可以有效增加策略熵,促进探索,并防止熵崩溃。具体而言,在某些任务上,通过调整clip-low,模型的性能提升了显著的百分比(具体数值未知,论文中未明确给出)。
🎯 应用场景
该研究成果可应用于各种需要利用强化学习训练大型语言模型的场景,例如对话系统、文本生成、代码生成等。通过控制裁剪参数,可以有效避免熵崩溃,提升模型的探索能力和泛化性能,从而获得更智能、更可靠的LLM应用。该研究为LLM强化学习的优化提供了一种新的视角和方法。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (RLVR) has recently emerged as the leading approach for enhancing the reasoning capabilities of large language models (LLMs). However, RLVR is prone to entropy collapse, where the LLM quickly converges to a near-deterministic form, hindering exploration and progress during prolonged RL training. In this work, we reveal that the clipping mechanism in PPO and GRPO induces biases on entropy. Through theoretical and empirical analyses, we show that clip-low increases entropy, while clip-high decreases it. Further, under standard clipping parameters, the effect of clip-high dominates, resulting in an overall entropy reduction even when purely random rewards are provided to the RL algorithm. Our findings highlight an overlooked confounding factor in RLVR: independent of the reward signal, the clipping mechanism influences entropy, which in turn affects the reasoning behavior. Furthermore, our analysis demonstrates that clipping can be deliberately used to control entropy. Specifically, with a more aggressive clip-low value, one can increase entropy, promote exploration, and ultimately prevent entropy collapse in RLVR training.