Mitigating Reward Hacking in RLHF via Advantage Sign Robustness
作者: Shinnosuke Ono, Johannes Ackermann, Soichiro Nishimori, Takashi Ishida, Masashi Sugiyama
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-06
💡 一句话要点
提出SignCert-PO算法,通过优势函数符号稳健性缓解RLHF中的奖励黑客问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 奖励黑客 RLHF 强化学习 优势函数 符号稳健性
📋 核心要点
- RLHF中的奖励黑客问题导致策略优化偏离真实目标,降低模型泛化能力和安全性。
- SignCert-PO通过计算优势函数符号保持半径,降低非稳健样本的权重,从而避免奖励黑客。
- SignCert-PO在TL;DR摘要和AlpacaFarm等任务上验证了有效性,胜率优于基线方法。
📝 摘要(中文)
在基于人类反馈的强化学习(RLHF)中,奖励模型(RM)容易受到奖励黑客的影响:当策略最大化学习到的代理奖励时,真实质量会停滞甚至下降。本文假设奖励黑客通常是由优势函数符号翻转引起的:翻转的符号会导致更新增加坏响应的可能性,而不是降低它。通过考虑RM参数空间中的对抗扰动,可以推导出认证的符号保持半径,这是在策略优化期间可以翻转优势函数符号的最小扰动。基于此,本文提出符号认证策略优化(SignCert-PO),在策略梯度更新中降低非稳健完成的权重。与需要多个RM或访问RM训练数据的先前方法不同,SignCert-PO是轻量级的,并且仅使用RM参数和在线完成在策略优化阶段运行。在TL;DR摘要和AlpacaFarm基准测试中,SignCert-PO始终比基线获得更好的胜率,并减少了奖励黑客。
🔬 方法详解
问题定义:RLHF中的奖励黑客问题是指,由于奖励模型(RM)只是真实人类偏好的一个近似,策略过度优化RM会导致生成质量下降,甚至产生有害内容。现有方法通常需要多个RM或访问RM训练数据,成本较高且不实用。
核心思路:本文的核心思路是,奖励黑客通常源于优势函数符号的错误估计。如果优势函数的符号被翻转,那么策略优化就会朝着错误的方向更新。因此,通过保证优势函数符号的稳健性,可以有效缓解奖励黑客问题。
技术框架:SignCert-PO算法主要在策略优化阶段进行。首先,计算当前策略下每个样本的优势函数。然后,通过对抗扰动分析,计算优势函数符号保持半径,即在RM参数空间中,能够翻转优势函数符号的最小扰动。最后,根据符号保持半径,对非稳健的样本进行降权,从而更新策略。
关键创新:SignCert-PO的关键创新在于,它提出了一种基于优势函数符号稳健性的奖励黑客缓解方法。与现有方法相比,SignCert-PO不需要多个RM或访问RM训练数据,只需要RM参数和在线样本即可,更加轻量级和实用。
关键设计:SignCert-PO的关键设计包括:1) 使用对抗扰动来估计优势函数符号保持半径;2) 使用符号保持半径作为权重,对策略梯度进行修正;3) 算法完全在策略优化阶段进行,易于集成到现有的RLHF流程中。具体来说,优势函数符号保持半径的计算涉及到求解一个优化问题,可以使用梯度下降等方法进行求解。权重函数的设计需要保证,当符号保持半径较小时,权重接近于0,当符号保持半径较大时,权重接近于1。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SignCert-PO在TL;DR摘要和AlpacaFarm基准测试中,始终优于基线方法。具体而言,SignCert-PO在胜率方面取得了显著提升,并且能够有效减少奖励黑客现象,验证了其在缓解奖励黑客问题方面的有效性。
🎯 应用场景
SignCert-PO可应用于各种需要RLHF的自然语言生成任务,例如文本摘要、对话生成、代码生成等。通过缓解奖励黑客问题,可以提高生成模型的质量、安全性和泛化能力,使其更好地服务于实际应用。
📄 摘要(原文)
Reward models (RMs) used in reinforcement learning from human feedback (RLHF) are vulnerable to reward hacking: as the policy maximizes a learned proxy reward, true quality plateaus or degrades. We make the assumption that reward hacking is often caused by flipped advantage signs: instead of reducing the likelihood of a bad response, a flipped sign causes the update to increase it. By considering an adversarial perturbation in the RM parameter space, we can derive a certified sign-preservation radius, which is the smallest perturbation that can flip the advantage sign during policy optimization. Based on this formulation, we propose Sign-Certified Policy Optimization (SignCert-PO), down-weighting non-robust completions in the policy gradient update. Unlike prior approaches that require multiple RMs or access to the RM training data, SignCert-PO is lightweight and operates purely at the policy optimization stage using only the RM parameters and on-policy completions. On TL;DR summarization and AlpacaFarm benchmarks, SignCert-PO consistently achieves a better win rate than baselines and reduces reward hacking.