Causally-Enhanced Reinforcement Policy Optimization
作者: Xiangqi Wang, Yue Huang, Yujun Zhou, Xiaonan Luo, Kehan Guo, Xiangliang Zhang
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-09-27
备注: Reinforcement learning publication of 24 pages
💡 一句话要点
提出因果增强策略优化(CE-PO),提升LLM推理的因果一致性和鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果推理 强化学习 大型语言模型 策略优化 奖励塑造
📋 核心要点
- 现有LLM通过强化学习训练时,易采用捷径策略,导致推理过程不忠实,对因果扰动敏感。
- CE-PO通过可微代理建模提示、理由和答案之间的因果关系,增强策略优化,提升模型推理的因果一致性。
- 实验表明,CE-PO在多个数据集上提高了准确率,并增强了对因果关系翻转和反事实编辑的鲁棒性。
📝 摘要(中文)
本文提出了一种因果增强策略优化(CE-PO)框架,旨在解决大型语言模型(LLM)在使用强化学习目标训练时,通过捷径策略获得表面上正确的答案,将正确的输出与虚假或不忠实的推理配对,并在小的因果扰动下性能下降的问题。CE-PO是一种即插即用的奖励塑造框架,它通过可微代理来增强策略优化,以衡量从提示(Z)到理由(X)到答案(Y)的生成路径上的因果一致性。CE-PO使用基于雅可比矩阵的敏感性来估计模型内部的影响,以对抗方式强化这些信号以抑制干扰线索,并通过Minkowski(幂平均)组合器将结果一致性得分与任务准确性反馈融合,从而暴露了准确性和一致性之间的单个可调权衡。统一的奖励与PPO/GRPO集成,无需架构更改。在推理基准和因果压力测试中,CE-PO减少了奖励黑客和不忠实的思维链,同时提高了对相关性-因果关系翻转和轻微反事实编辑的鲁棒性,所有这些都以接近对等的准确性实现。在4个数据集上的实验结果表明,CE-PO的准确率比基线平均提高了5.49%(最高9.58%),同时提高了对相关性-因果关系翻转和轻微反事实编辑的鲁棒性。
🔬 方法详解
问题定义:大型语言模型在通过强化学习进行训练时,常常会学习到一些“捷径”策略,即模型可能在表面上给出了正确的答案,但其推理过程实际上是不忠实的,依赖于一些虚假的线索。这种现象导致模型在面对一些细微的因果扰动时,性能会显著下降。因此,如何提升LLM推理的因果一致性和鲁棒性是一个重要的问题。
核心思路:CE-PO的核心思路是通过引入一个可微的代理模型来显式地建模从提示(Z)到理由(X)再到答案(Y)的因果关系。这个代理模型能够评估模型在生成过程中的因果一致性,并将其作为奖励信号的一部分,引导模型学习更加忠实的推理过程。通过这种方式,CE-PO鼓励模型不仅仅关注最终答案的正确性,更关注推理过程的合理性和可靠性。
技术框架:CE-PO的整体框架可以分为以下几个主要模块:1) 因果关系建模:使用基于雅可比矩阵的敏感性分析来估计模型内部的影响,从而捕捉提示、理由和答案之间的因果关系。2) 对抗性强化:通过对抗性的方式强化这些因果信号,抑制那些虚假的、不相关的线索。3) 奖励融合:将因果一致性得分与任务准确性反馈通过Minkowski组合器进行融合,从而实现准确性和一致性之间的权衡。4) 策略优化:将融合后的奖励信号用于PPO/GRPO等策略优化算法,从而训练模型。
关键创新:CE-PO的关键创新在于它显式地建模了LLM推理过程中的因果关系,并将其作为奖励信号的一部分,引导模型学习更加忠实的推理过程。与传统的强化学习方法相比,CE-PO不仅仅关注最终答案的正确性,更关注推理过程的合理性和可靠性,从而提高了模型的鲁棒性和泛化能力。
关键设计:CE-PO的关键设计包括:1) 使用雅可比矩阵来估计模型内部的影响,这是一种可微的方法,可以方便地与现有的深度学习框架集成。2) 使用对抗性的方式强化因果信号,这可以有效地抑制虚假线索的干扰。3) 使用Minkowski组合器来融合因果一致性得分和任务准确性反馈,这提供了一种灵活的方式来权衡准确性和一致性。
📊 实验亮点
实验结果表明,CE-PO在4个数据集上平均提高了5.49%的准确率(最高9.58%),同时显著提高了模型对相关性-因果关系翻转和轻微反事实编辑的鲁棒性。这些结果表明,CE-PO能够有效地提升LLM推理的因果一致性和鲁棒性,使其在更加复杂的环境中表现更加出色。
🎯 应用场景
CE-PO可应用于各种需要高可靠性和鲁棒性的LLM应用场景,例如医疗诊断、金融分析、法律咨询等。通过提升LLM推理的因果一致性,可以减少模型犯错的概率,提高决策的可靠性,并增强模型在面对对抗性攻击时的防御能力。未来,该方法有望推广到更广泛的自然语言处理任务中。
📄 摘要(原文)
Large language models (LLMs) trained with reinforcement objectives often achieve superficially correct answers via shortcut strategies, pairing correct outputs with spurious or unfaithful reasoning and degrading under small causal perturbations. We introduce Causally-Enhanced Policy Optimization (CE-PO), a drop-in reward-shaping framework that augments policy optimization with a differentiable proxy for causal coherence along the generation pathway from prompt (Z) to rationale (X) to answer (Y). CE-PO estimates model-internal influence with Jacobian-based sensitivities, counterfactually hardens these signals to suppress nuisance cues, and fuses the resulting coherence score with task-accuracy feedback via a Minkowski (power-mean) combiner, exposing a single tunable between accuracy and coherence trade-off. The unified reward integrates with PPO/GRPO without architectural changes. Across reasoning benchmarks and causal stress tests, CE-PO reduces reward hacking and unfaithful chain-of-thought while improving robustness to correlation-causation flips and light counterfactual edits, all at near-parity accuracy. Experimental results across 4 datasets show that CE-PO improves accuracy over baselines by 5.49% on average (up to 9.58%), while improving robustness to correlation-causation flips and light counterfactual edits.