Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

作者: Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-03-06

💡 一句话要点

提出DSH以解决大型语言模型安全机制的解耦问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 安全对齐 大型语言模型 解耦机制 拒绝消除攻击 因果解离

📋 核心要点

现有的安全对齐方法将有害性检测与拒绝机制紧密结合，导致在面对越狱攻击时表现不佳。
论文提出DSH假设，认为安全计算可以在识别和执行两个独立的子空间中进行，从而实现解耦。
通过实验验证，使用AmbiguityBench展示了因果双重解离，提出的REA攻击方法在成功率上超越了现有技术。

📝 摘要（中文）

安全对齐通常被视为一个整体过程，其中有害性检测会自动触发拒绝。然而，越狱攻击的持续存在表明存在基本的机制解耦。我们提出了 extbf{D}isentangled extbf{S}afety extbf{H}ypothesis（DSH），认为安全计算在两个不同的子空间中进行： extit{识别轴}（Knowing''）和 extit{执行轴}（Acting''）。我们的几何分析揭示了一种普遍的反射-解离''演变，信号从早期层的对抗性纠缠转变为深层的结构独立。通过引入 extit{双重差异提取}和 extit{自适应因果引导}，我们展示了因果双重解离，成功实现了Knowing without Acting''的状态。我们还提出了 extbf{拒绝消除攻击（REA）}，通过外科手术式地切除拒绝机制，达到了最先进的攻击成功率。

🔬 方法详解

问题定义：本论文旨在解决大型语言模型中安全机制的解耦问题。现有方法将有害性检测与拒绝机制紧密结合，导致在面对越狱攻击时的脆弱性。

核心思路：论文提出DSH假设，认为安全计算可以在两个独立的子空间中进行：识别轴（Knowing）和执行轴（Acting）。这种解耦设计使得模型能够在不执行的情况下进行有害性识别。

技术框架：整体架构包括两个主要模块：识别模块负责检测潜在的有害内容，执行模块则负责决定是否拒绝该内容。通过双重差异提取和自适应因果引导，模型能够实现有效的因果解离。

关键创新：最重要的技术创新点在于提出了拒绝消除攻击（REA），通过切除拒绝机制，显著提高了攻击成功率。这一方法与现有的安全机制有本质区别。

关键设计：在模型设计中，采用了特定的损失函数以优化识别和执行的独立性，同时在网络结构上引入了双重差异提取和自适应因果引导的模块，以增强模型的解耦能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的拒绝消除攻击（REA）在攻击成功率上达到了最先进的水平，显著优于现有方法。具体性能数据未提供，但实验验证了因果双重解离的有效性，展示了模型在安全性方面的提升。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的安全性提升、对抗性攻击防御以及智能系统的安全对齐。通过解耦安全机制，模型能够更有效地识别有害内容，同时减少误拒绝的风险，具有重要的实际价值和未来影响。

📄 摘要（原文）

Safety alignment is often conceptualized as a monolithic process wherein harmfulness detection automatically triggers refusal. However, the persistence of jailbreak attacks suggests a fundamental mechanistic decoupling. We propose the \textbf{\underline{D}}isentangled \textbf{\underline{S}}afety \textbf{\underline{H}}ypothesis \textbf{(DSH)}, positing that safety computation operates on two distinct subspaces: a \textit{Recognition Axis} ($\mathbf{v}_H$, Knowing'') and an \textit{Execution Axis} ($\mathbf{v}_R$,Acting''). Our geometric analysis reveals a universal Reflex-to-Dissociation'' evolution, where these signals transition from antagonistic entanglement in early layers to structural independence in deep layers. To validate this, we introduce \textit{Double-Difference Extraction} and \textit{Adaptive Causal Steering}. Using our curated \textsc{AmbiguityBench}, we demonstrate a causal double dissociation, effectively creating a state ofKnowing without Acting.'' Crucially, we leverage this disentanglement to propose the \textbf{Refusal Erasure Attack (REA)}, which achieves State-of-the-Art attack success rates by surgically lobotomizing the refusal mechanism. Furthermore, we uncover a critical architectural divergence, contrasting the \textit{Explicit Semantic Control} of Llama3.1 with the \textit{Latent Distributed Control} of Qwen2.5. The code and dataset are available at https://anonymous.4open.science/r/DSH.

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理