Clip Your Sequences Fairly: Enforcing Length Fairness for Sequence-Level RL
作者: Hanyi Mao, Quanjia Xiao, Lei Pang, Haixiao Liu
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-09-11 (更新: 2025-10-13)
💡 一句话要点
提出FSPO,通过长度公平的裁剪解决序列级强化学习中的长度偏差问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 序列级强化学习 长度公平性 重要性采样 策略优化 大型语言模型
📋 核心要点
- 现有序列级强化学习方法在处理长短序列时存在偏差,导致优化方向扭曲。
- FSPO通过引入长度相关的裁剪范围,确保对不同长度的序列进行公平的加权。
- 实验证明FSPO能够稳定训练,并在多个数据集和模型上取得优于基线的性能。
📝 摘要(中文)
本文提出了一种名为FSPO(Fair Sequence Policy Optimization)的序列级强化学习方法,用于大型语言模型(LLM)。该方法对重要性采样(IS)权重强制执行长度公平的裁剪。研究发现,当PPO/GRPO风格的裁剪被移植到序列时,会产生不匹配:固定的裁剪范围系统性地重新加权短响应与长响应,从而扭曲优化方向。FSPO引入了一个简单的补救措施:使用随$\sqrt{L}$缩放的带裁剪序列log-IS比率。理论上,本文通过长度重加权误差(LRE)形式化了长度公平性,并证明了小的LRE产生裁剪更新和真实更新之间的余弦方向保证。实验结果表明,FSPO降低了跨长度箱的裁剪率,稳定了训练,并在各种模型大小和评估数据集上优于基线,在Qwen3-8B-Base模型上获得了最大的收益。
🔬 方法详解
问题定义:序列级强化学习旨在优化整个序列的生成质量,但直接将PPO/GRPO等方法应用于序列时,会因为重要性采样的特性而引入长度偏差。具体来说,固定裁剪范围会不成比例地影响短序列和长序列的更新幅度,导致模型倾向于生成特定长度的序列,而非真正高质量的序列。这种长度偏差会损害模型的泛化能力和生成多样性。
核心思路:FSPO的核心思路是确保对不同长度的序列进行公平的加权,避免因序列长度而引入的偏差。为此,FSPO提出了一种长度公平的裁剪策略,即裁剪范围不是固定的,而是与序列长度的平方根成比例。这样,较长的序列允许更大的更新幅度,而较短的序列则受到更严格的限制,从而平衡了不同长度序列对整体优化的贡献。
技术框架:FSPO沿用了标准的序列级强化学习框架,主要包括以下几个阶段:1) 使用策略模型生成序列;2) 计算重要性采样权重(IS weight),即新策略和旧策略生成同一序列的概率之比;3) 对IS权重进行裁剪,以限制策略更新的幅度;4) 使用裁剪后的IS权重计算策略梯度,并更新策略模型。FSPO的关键在于第3步,即裁剪策略,它使用长度相关的裁剪范围。
关键创新:FSPO最关键的创新在于提出了长度公平的裁剪策略。与传统的固定裁剪范围不同,FSPO的裁剪范围与序列长度的平方根成比例。这种设计能够有效地缓解长度偏差问题,确保对不同长度的序列进行公平的加权。此外,论文还从理论上分析了长度重加权误差(LRE)与策略更新方向之间的关系,证明了小的LRE能够保证裁剪后的更新方向与真实更新方向的一致性。
关键设计:FSPO的关键设计在于裁剪范围的计算方式。具体来说,对于长度为L的序列,FSPO使用$\sqrt{L}$作为裁剪范围的缩放因子。这意味着,序列的log-IS ratio会被裁剪到[-c$\sqrt{L}$, c$\sqrt{L}$]的范围内,其中c是一个超参数,用于控制裁剪的严格程度。论文中并没有特别提到损失函数或网络结构的修改,FSPO主要关注的是裁剪策略的改进。
📊 实验亮点
实验结果表明,FSPO在多个数据集和模型上都取得了显著的性能提升。例如,在Qwen3-8B-Base模型上,FSPO的性能提升最为明显。此外,FSPO还能够降低跨长度箱的裁剪率,表明其有效地缓解了长度偏差问题。实验结果还表明,FSPO能够稳定训练过程,避免因策略更新幅度过大而导致的训练崩溃。
🎯 应用场景
FSPO可应用于各种需要序列生成的任务,例如文本摘要、机器翻译、对话生成等。通过减少长度偏差,FSPO能够提高生成序列的质量和多样性,使模型能够更好地适应不同的应用场景。该方法尤其适用于需要生成长文本的任务,例如长篇小说创作或技术文档生成。
📄 摘要(原文)
We propose FSPO (Fair Sequence Policy Optimization), a sequence-level reinforcement learning method for LLMs that enforces length-fair clipping on the importance-sampling (IS) weight. We study RL methods with sequence-level IS and identify a mismatch when PPO/GRPO-style clipping is transplanted to sequences: a fixed clip range systematically reweights short vs. long responses, distorting the optimization direction. FSPO introduces a simple remedy: we clip the sequence log-IS ratio with a band that scales as $\sqrt{L}$. Theoretically, we formalize length fairness via a Length Reweighting Error (LRE) and prove that small LRE yields a cosine directional guarantee between the clipped and true updates. Empirically, FSPO flattens clip rates across length bins, stabilizes training, and outperforms baselines across model sizes and evaluation datasets, with the largest gains on the Qwen3-8B-Base model.