Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

📄 arXiv: 2603.05773v1 📥 PDF

作者: Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-03-06


💡 一句话要点

提出DSH以解决大型语言模型安全机制的解耦问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 安全对齐 大型语言模型 解耦机制 拒绝消除攻击 因果解离

📋 核心要点

  1. 现有的安全对齐方法将有害性检测与拒绝机制紧密结合,导致在面对越狱攻击时表现不佳。
  2. 论文提出DSH假设,认为安全计算可以在识别和执行两个独立的子空间中进行,从而实现解耦。
  3. 通过实验验证,使用AmbiguityBench展示了因果双重解离,提出的REA攻击方法在成功率上超越了现有技术。

📝 摘要(中文)

安全对齐通常被视为一个整体过程,其中有害性检测会自动触发拒绝。然而,越狱攻击的持续存在表明存在基本的机制解耦。我们提出了 extbf{D}isentangled extbf{S}afety extbf{H}ypothesis(DSH),认为安全计算在两个不同的子空间中进行: extit{识别轴}(Knowing'')和 extit{执行轴}(Acting'')。我们的几何分析揭示了一种普遍的反射-解离''演变,信号从早期层的对抗性纠缠转变为深层的结构独立。通过引入 extit{双重差异提取}和 extit{自适应因果引导},我们展示了因果双重解离,成功实现了Knowing without Acting''的状态。我们还提出了 extbf{拒绝消除攻击(REA)},通过外科手术式地切除拒绝机制,达到了最先进的攻击成功率。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型中安全机制的解耦问题。现有方法将有害性检测与拒绝机制紧密结合,导致在面对越狱攻击时的脆弱性。

核心思路:论文提出DSH假设,认为安全计算可以在两个独立的子空间中进行:识别轴(Knowing)和执行轴(Acting)。这种解耦设计使得模型能够在不执行的情况下进行有害性识别。

技术框架:整体架构包括两个主要模块:识别模块负责检测潜在的有害内容,执行模块则负责决定是否拒绝该内容。通过双重差异提取和自适应因果引导,模型能够实现有效的因果解离。

关键创新:最重要的技术创新点在于提出了拒绝消除攻击(REA),通过切除拒绝机制,显著提高了攻击成功率。这一方法与现有的安全机制有本质区别。

关键设计:在模型设计中,采用了特定的损失函数以优化识别和执行的独立性,同时在网络结构上引入了双重差异提取和自适应因果引导的模块,以增强模型的解耦能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的拒绝消除攻击(REA)在攻击成功率上达到了最先进的水平,显著优于现有方法。具体性能数据未提供,但实验验证了因果双重解离的有效性,展示了模型在安全性方面的提升。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的安全性提升、对抗性攻击防御以及智能系统的安全对齐。通过解耦安全机制,模型能够更有效地识别有害内容,同时减少误拒绝的风险,具有重要的实际价值和未来影响。

📄 摘要(原文)

Safety alignment is often conceptualized as a monolithic process wherein harmfulness detection automatically triggers refusal. However, the persistence of jailbreak attacks suggests a fundamental mechanistic decoupling. We propose the \textbf{\underline{D}}isentangled \textbf{\underline{S}}afety \textbf{\underline{H}}ypothesis \textbf{(DSH)}, positing that safety computation operates on two distinct subspaces: a \textit{Recognition Axis} ($\mathbf{v}_H$, Knowing'') and an \textit{Execution Axis} ($\mathbf{v}_R$,Acting''). Our geometric analysis reveals a universal Reflex-to-Dissociation'' evolution, where these signals transition from antagonistic entanglement in early layers to structural independence in deep layers. To validate this, we introduce \textit{Double-Difference Extraction} and \textit{Adaptive Causal Steering}. Using our curated \textsc{AmbiguityBench}, we demonstrate a causal double dissociation, effectively creating a state ofKnowing without Acting.'' Crucially, we leverage this disentanglement to propose the \textbf{Refusal Erasure Attack (REA)}, which achieves State-of-the-Art attack success rates by surgically lobotomizing the refusal mechanism. Furthermore, we uncover a critical architectural divergence, contrasting the \textit{Explicit Semantic Control} of Llama3.1 with the \textit{Latent Distributed Control} of Qwen2.5. The code and dataset are available at https://anonymous.4open.science/r/DSH.