Mitigating Reward Hacking in RLHF via Advantage Sign Robustness

作者: Shinnosuke Ono, Johannes Ackermann, Soichiro Nishimori, Takashi Ishida, Masashi Sugiyama

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-06

💡 一句话要点

提出SignCert-PO算法，通过优势函数符号稳健性缓解RLHF中的奖励黑客问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 奖励黑客 RLHF 强化学习 优势函数 符号稳健性

📋 核心要点

RLHF中的奖励黑客问题导致策略优化偏离真实目标，降低模型泛化能力和安全性。
SignCert-PO通过计算优势函数符号保持半径，降低非稳健样本的权重，从而避免奖励黑客。
SignCert-PO在TL;DR摘要和AlpacaFarm等任务上验证了有效性，胜率优于基线方法。

📝 摘要（中文）

在基于人类反馈的强化学习(RLHF)中，奖励模型(RM)容易受到奖励黑客的影响：当策略最大化学习到的代理奖励时，真实质量会停滞甚至下降。本文假设奖励黑客通常是由优势函数符号翻转引起的：翻转的符号会导致更新增加坏响应的可能性，而不是降低它。通过考虑RM参数空间中的对抗扰动，可以推导出认证的符号保持半径，这是在策略优化期间可以翻转优势函数符号的最小扰动。基于此，本文提出符号认证策略优化(SignCert-PO)，在策略梯度更新中降低非稳健完成的权重。与需要多个RM或访问RM训练数据的先前方法不同，SignCert-PO是轻量级的，并且仅使用RM参数和在线完成在策略优化阶段运行。在TL;DR摘要和AlpacaFarm基准测试中，SignCert-PO始终比基线获得更好的胜率，并减少了奖励黑客。

🔬 方法详解

问题定义：RLHF中的奖励黑客问题是指，由于奖励模型(RM)只是真实人类偏好的一个近似，策略过度优化RM会导致生成质量下降，甚至产生有害内容。现有方法通常需要多个RM或访问RM训练数据，成本较高且不实用。

核心思路：本文的核心思路是，奖励黑客通常源于优势函数符号的错误估计。如果优势函数的符号被翻转，那么策略优化就会朝着错误的方向更新。因此，通过保证优势函数符号的稳健性，可以有效缓解奖励黑客问题。

技术框架：SignCert-PO算法主要在策略优化阶段进行。首先，计算当前策略下每个样本的优势函数。然后，通过对抗扰动分析，计算优势函数符号保持半径，即在RM参数空间中，能够翻转优势函数符号的最小扰动。最后，根据符号保持半径，对非稳健的样本进行降权，从而更新策略。

关键创新：SignCert-PO的关键创新在于，它提出了一种基于优势函数符号稳健性的奖励黑客缓解方法。与现有方法相比，SignCert-PO不需要多个RM或访问RM训练数据，只需要RM参数和在线样本即可，更加轻量级和实用。

关键设计：SignCert-PO的关键设计包括：1) 使用对抗扰动来估计优势函数符号保持半径；2) 使用符号保持半径作为权重，对策略梯度进行修正；3) 算法完全在策略优化阶段进行，易于集成到现有的RLHF流程中。具体来说，优势函数符号保持半径的计算涉及到求解一个优化问题，可以使用梯度下降等方法进行求解。权重函数的设计需要保证，当符号保持半径较小时，权重接近于0，当符号保持半径较大时，权重接近于1。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SignCert-PO在TL;DR摘要和AlpacaFarm基准测试中，始终优于基线方法。具体而言，SignCert-PO在胜率方面取得了显著提升，并且能够有效减少奖励黑客现象，验证了其在缓解奖励黑客问题方面的有效性。

🎯 应用场景

SignCert-PO可应用于各种需要RLHF的自然语言生成任务，例如文本摘要、对话生成、代码生成等。通过缓解奖励黑客问题，可以提高生成模型的质量、安全性和泛化能力，使其更好地服务于实际应用。

📄 摘要（原文）

Reward models (RMs) used in reinforcement learning from human feedback (RLHF) are vulnerable to reward hacking: as the policy maximizes a learned proxy reward, true quality plateaus or degrades. We make the assumption that reward hacking is often caused by flipped advantage signs: instead of reducing the likelihood of a bad response, a flipped sign causes the update to increase it. By considering an adversarial perturbation in the RM parameter space, we can derive a certified sign-preservation radius, which is the smallest perturbation that can flip the advantage sign during policy optimization. Based on this formulation, we propose Sign-Certified Policy Optimization (SignCert-PO), down-weighting non-robust completions in the policy gradient update. Unlike prior approaches that require multiple RMs or access to the RM training data, SignCert-PO is lightweight and operates purely at the policy optimization stage using only the RM parameters and on-policy completions. On TL;DR summarization and AlpacaFarm benchmarks, SignCert-PO consistently achieves a better win rate than baselines and reduces reward hacking.

Mitigating Reward Hacking in RLHF via Advantage Sign Robustness

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理