Generalization Limits of Reinforcement Learning Alignment
作者: Haruhi Shida, Koo Imai, Keigo Kansa
分类: cs.LG, cs.AI
发布日期: 2026-04-06
💡 一句话要点
针对RLHF对齐的泛化局限性,提出复合越狱攻击方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习对齐 大型语言模型 安全性评估 对抗性攻击 复合攻击 越狱攻击 泛化能力 RLHF
📋 核心要点
- 现有RLHF对齐方法在安全性泛化方面存在局限性,容易受到对抗性攻击。
- 提出“复合越狱”攻击,结合多种防御过的攻击手段,饱和指令层级维护过程。
- 实验表明,复合攻击显著提升了攻击成功率,验证了安全训练泛化能力不足的假设。
📝 摘要(中文)
大型语言模型(LLMs)的安全性依赖于对齐技术,例如基于人类反馈的强化学习(RLHF)。然而,最近的理论分析表明,基于强化学习的训练并没有获得新的能力,而仅仅是重新分配了现有能力的利用概率。在本研究中,我们提出了针对OpenAI gpt-oss-20b的“复合越狱”攻击,该攻击利用了对齐的泛化失败。这种方法结合了多种攻击技术——每种技术都单独进行了防御——以饱和指令层级维护过程。我们的评估表明,攻击成功率(ASR)从单独使用方法时的14.3%提高到组合方法时的71.4%。这些结果为安全训练的泛化能力不如模型能力的假设提供了经验证据,突出了使用复合攻击场景进行多方面安全评估的必要性。
🔬 方法详解
问题定义:论文旨在研究大型语言模型通过RLHF对齐后,其安全性的泛化能力。现有方法虽然能防御单一攻击,但在面对组合攻击时显得脆弱,说明模型的安全能力并没有真正泛化到所有可能的输入空间。现有防御措施未能充分解决模型对齐的泛化问题,导致模型容易受到对抗性攻击,产生有害或不期望的输出。
核心思路:论文的核心思路是利用多种已知的、单独防御过的攻击方法,将它们组合起来形成“复合越狱”攻击。这种组合攻击能够饱和模型的指令层级维护过程,从而绕过安全机制,诱导模型产生有害输出。核心在于,即使模型对单个攻击有防御,但多个攻击组合在一起,其防御能力会显著下降。
技术框架:该研究主要通过实验评估来验证复合攻击的有效性。技术框架可以概括为:1)选择目标模型(OpenAI gpt-oss-20b);2)选取多种已知的攻击方法;3)设计复合攻击策略,将这些攻击方法组合起来;4)评估复合攻击的成功率(ASR),并与单独使用攻击方法时的成功率进行比较。没有明确的训练或优化过程,重点在于攻击策略的设计和评估。
关键创新:关键创新在于提出了“复合越狱”攻击的概念,并验证了其有效性。与以往关注单一攻击方法不同,该研究强调了组合攻击的威力,揭示了RLHF对齐在泛化能力上的不足。这种复合攻击的思想可以推广到其他安全相关的领域,用于评估和提升系统的鲁棒性。
关键设计:复合攻击的具体组合方式是关键设计。论文中可能没有详细说明所有可能的组合方式,但核心思想是选择那些能够相互补充、相互增强的攻击方法。例如,一种攻击方法可能负责绕过输入过滤,另一种攻击方法负责诱导模型产生有害输出。具体参数设置和损失函数取决于所使用的具体攻击方法,而模型结构则直接采用OpenAI gpt-oss-20b。
📊 实验亮点
实验结果表明,针对OpenAI gpt-oss-20b模型,单独使用攻击方法时,攻击成功率(ASR)为14.3%。而使用复合攻击方法后,攻击成功率显著提升至71.4%。这一结果有力地证明了复合攻击的有效性,并揭示了现有RLHF对齐方法在泛化能力上的不足。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性。通过构建更复杂的复合攻击场景,可以更全面地评估模型的鲁棒性,发现潜在的安全漏洞。研究结果有助于开发更有效的对齐方法,提高模型在各种复杂场景下的安全性,减少有害信息传播的风险。
📄 摘要(原文)
The safety of large language models (LLMs) relies on alignment techniques such as reinforcement learning from human feedback (RLHF). However, recent theoretical analyses suggest that reinforcement learning-based training does not acquire new capabilities but merely redistributes the utilization probabilities of existing ones. In this study, we propose ``compound jailbreaks'' targeting OpenAI gpt-oss-20b, which exploit the generalization failures of alignment. This approach combines multiple attack techniques -- each individually defended against -- to saturate the instruction hierarchy maintenance process. Our evaluation shows that the attack success rate (ASR) increased from 14.3\% with individual methods to 71.4\% with the combined approach. These results provide empirical evidence for the hypothesis that safety training does not generalize as broadly as model capabilities, highlighting the need for multifaceted safety evaluations using compound attack scenarios.