RL's Razor: Why Online Reinforcement Learning Forgets Less

作者: Idan Shenfeld, Jyothish Pari, Pulkit Agrawal

分类: cs.LG

发布日期: 2025-09-04

💡 一句话要点

揭示RL的“奥卡姆剃刀”：在线强化学习在微调中能更好保留先验知识

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 微调 知识保留 灾难性遗忘 KL散度 在线学习 策略优化

📋 核心要点

现有监督微调方法在适应新任务时，容易过度拟合新数据，导致模型遗忘原有的知识和能力。
论文提出在线强化学习由于其内在的KL散度最小化偏好，能更好地在适应新任务的同时保留先验知识。
实验表明，相比监督微调，强化学习微调的模型在保留先验知识方面有显著优势，并提供了理论支持。

📝 摘要（中文）

本研究对比了使用强化学习（RL）和监督微调（SFT）对模型进行微调的效果，发现尽管两者在新任务上表现相似，但RL在保留先验知识和能力方面明显更胜一筹。研究表明，遗忘程度取决于分布偏移，具体表现为在新任务上评估的微调后策略与基础策略之间的KL散度。分析揭示，在线RL隐式地偏向于KL散度最小的解，而SFT可能收敛到与基础模型相距甚远的分布。通过大型语言模型和机器人基础模型的实验验证了这些发现，并提供了理论依据来解释为什么在线RL更新会导致更小的KL变化。我们将此原则称为“RL的奥卡姆剃刀”：在解决新任务的所有方法中，RL倾向于选择KL散度上最接近原始模型的方法。

🔬 方法详解

问题定义：论文旨在解决模型在微调过程中遗忘先验知识的问题。现有的监督微调方法，虽然能够使模型适应新任务，但往往会显著改变模型的参数分布，导致模型失去原本具备的能力。这种“灾难性遗忘”现象限制了模型在多任务场景下的应用。

核心思路：论文的核心思路是，在线强化学习（On-policy RL）算法在更新策略时，天然地倾向于选择与原始策略KL散度最小的解。这意味着，在所有能够解决新任务的策略中，RL会优先选择那些与原始模型最相似的策略，从而减少对原始知识的干扰，降低遗忘的风险。这种偏好类似于“奥卡姆剃刀”原则，即选择最简单的解释。

技术框架：论文通过比较RL和SFT两种微调方法，来验证其核心思路。具体而言，首先使用预训练模型作为基础模型，然后分别使用RL和SFT对模型进行微调，使其适应新的任务。接着，评估微调后模型在新任务上的性能，以及在原始任务上的性能，从而衡量模型的遗忘程度。此外，论文还计算了微调后策略与基础策略之间的KL散度，以量化分布偏移的大小。

关键创新：论文最重要的创新点在于发现了在线强化学习在微调过程中具有KL散度最小化的偏好，并将其命名为“RL的奥卡姆剃刀”。这一发现解释了为什么RL在保留先验知识方面优于监督微调。与现有方法相比，该研究不仅关注模型在新任务上的性能，更关注模型在微调过程中对原始知识的保留程度。

关键设计：论文的关键设计包括：1) 使用KL散度作为衡量分布偏移的指标；2) 对比在线RL和SFT两种微调方法；3) 在大型语言模型和机器人基础模型上进行实验验证；4) 提供理论分析来支持实验结果。具体参数设置和网络结构根据所使用的具体模型（如大型语言模型或机器人模型）而有所不同，但核心思想都是通过控制策略更新的幅度，来限制KL散度的增长。

📊 实验亮点

实验结果表明，在相同的新任务性能下，使用在线强化学习微调的模型，其在原始任务上的性能下降明显小于使用监督微调的模型。具体而言，KL散度越小，遗忘程度越低，验证了“RL的奥卡姆剃刀”原则。在大型语言模型和机器人基础模型上的实验均支持了这一结论。

🎯 应用场景

该研究成果可应用于需要持续学习和知识迁移的场景，例如机器人控制、自然语言处理等。通过使用在线强化学习进行微调，可以使模型在适应新任务的同时，更好地保留已有的知识和能力，从而提高模型的泛化能力和鲁棒性。这对于开发能够适应复杂多变环境的智能系统具有重要意义。

📄 摘要（原文）

Comparison of fine-tuning models with reinforcement learning (RL) and supervised fine-tuning (SFT) reveals that, despite similar performance at a new task, RL preserves prior knowledge and capabilities significantly better. We find that the degree of forgetting is determined by the distributional shift, measured as the KL-divergence between the fine-tuned and base policy evaluated on the new task. Our analysis reveals that on-policy RL is implicitly biased towards KL-minimal solutions among the many that solve the new task, whereas SFT can converge to distributions arbitrarily far from the base model. We validate these findings through experiments with large language models and robotic foundation models and further provide theoretical justification for why on-policy RL updates lead to a smaller KL change. We term this principle $\textit{RL's Razor}$: among all ways to solve a new task, RL prefers those closest in KL to the original model.

RL's Razor: Why Online Reinforcement Learning Forgets Less

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册