MEUV: Achieving Fine-Grained Capability Activation in Large Language Models via Mutually Exclusive Unlock Vectors
作者: Xin Tong, Zhi Lin, Jingya Wang, Meng Han, Bo Jin
分类: cs.LG, cs.AI, cs.CL, cs.CR
发布日期: 2025-09-04
备注: Under Review
💡 一句话要点
MEUV:通过互斥解锁向量实现大语言模型中细粒度的能力激活
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 能力激活 安全对齐 细粒度控制 互斥向量
📋 核心要点
- 现有大语言模型安全对齐策略一刀切,阻碍了其在特定高风险领域的合法应用,缺乏细粒度控制。
- MEUV将拒绝方向分解为多个主题对齐的互斥向量,每个向量对应一个敏感能力,实现更精细的控制。
- 实验表明,MEUV在保持高攻击成功率的同时,显著降低了跨主题泄漏,且具有跨语言迁移能力。
📝 摘要(中文)
大型语言模型(LLMs)实施安全对齐以可靠地拒绝恶意请求,但同样的全面保护措施也阻碍了在警务、国防和其他高风险环境中的合法使用。先前的“拒绝方向”编辑可以绕过这些层,但它们依赖于单个向量,该向量不加区分地解锁所有危险主题,不提供语义控制。我们引入了互斥解锁向量(MEUV),这是一个轻量级框架,它将单片的拒绝方向分解为主题对齐、几乎正交的向量,每个向量专门用于一个敏感能力。MEUV在一个epoch中学习,采用多任务目标,该目标融合了差分消融裕度、跨主题和正交性惩罚以及几个辅助项。在双语恶意提示基准测试中,MEUV在Gemma-2-2B、LLaMA-3-8B和Qwen-7B上实现了不低于87%的攻击成功率,但与最佳单方向基线相比,跨主题泄漏减少了高达90%。用中文训练的向量几乎不变地转移到英语(反之亦然),表明存在一种语言无关的拒绝子空间。结果表明,通过最小的效用损失,可以实现细粒度的、主题级别的能力激活,为在安全敏感领域中受控的LLMs部署铺平了道路。
🔬 方法详解
问题定义:现有的大语言模型虽然具有强大的能力,但也存在被恶意利用的风险。为了防止这种情况,模型通常会进行安全对齐,拒绝回答涉及敏感话题的问题。然而,这种一刀切的方法也限制了模型在一些特定领域的应用,例如警务、国防等。现有的“拒绝方向”编辑方法虽然可以绕过这些安全限制,但它们通常使用单个向量来解锁所有危险主题,缺乏细粒度的控制能力,容易造成滥用。
核心思路:MEUV的核心思路是将原本单一的“拒绝方向”向量分解为多个互斥的向量,每个向量对应一个特定的敏感主题。通过这种方式,可以实现对模型能力的细粒度控制,只在需要的时候激活特定主题的能力,避免不必要的风险。
技术框架:MEUV框架主要包含以下几个步骤:首先,定义一系列敏感主题,例如“武器”、“犯罪”等。然后,为每个主题训练一个对应的解锁向量。在训练过程中,使用多任务学习目标,同时优化多个目标函数,包括差分消融裕度、跨主题惩罚和正交性惩罚等。最后,将训练好的解锁向量集成到大语言模型中,通过控制这些向量的激活状态,实现对模型能力的细粒度控制。
关键创新:MEUV的关键创新在于它将单一的拒绝方向分解为多个互斥的向量,从而实现了对模型能力的细粒度控制。与现有的方法相比,MEUV可以更加精确地控制模型的行为,避免不必要的风险。此外,MEUV还具有跨语言迁移能力,即在一个语言上训练的解锁向量可以直接应用到另一个语言上,无需重新训练。
关键设计:MEUV的关键设计包括:1) 使用差分消融裕度来确保每个解锁向量能够有效地激活对应主题的能力;2) 使用跨主题惩罚来降低不同主题之间的泄漏;3) 使用正交性惩罚来确保不同解锁向量之间的互斥性;4) 使用多任务学习目标来同时优化多个目标函数。
📊 实验亮点
MEUV在Gemma-2-2B、LLaMA-3-8B和Qwen-7B等模型上进行了测试,攻击成功率均达到87%以上。与最佳单方向基线相比,跨主题泄漏降低了高达90%。此外,实验还表明,用中文训练的向量可以几乎不变地迁移到英语,反之亦然,证明了该方法的跨语言适用性。
🎯 应用场景
MEUV技术可应用于需要对大语言模型能力进行精细控制的场景,例如在警务领域,可以解锁模型在犯罪分析方面的能力,同时限制其生成有害信息的能力。在国防领域,可以用于情报分析和战略规划,同时避免泄露敏感信息。该技术还有助于在教育、医疗等领域安全地部署大语言模型。
📄 摘要(原文)
Large language models (LLMs) enforce safety alignment to reliably refuse malicious requests, yet the same blanket safeguards also block legitimate uses in policing, defense, and other high-stakes settings. Earlier "refusal-direction" edits can bypass those layers, but they rely on a single vector that indiscriminately unlocks all hazardous topics, offering no semantic control. We introduce Mutually Exclusive Unlock Vectors (MEUV), a lightweight framework that factorizes the monolithic refusal direction into topic-aligned, nearly orthogonal vectors, each dedicated to one sensitive capability. MEUV is learned in a single epoch with a multi-task objective that blends a differential-ablation margin, cross-topic and orthogonality penalties, and several auxiliary terms. On bilingual malicious-prompt benchmarks, MEUV achieves an attack success rate of no less than 87% on Gemma-2-2B, LLaMA-3-8B, and Qwen-7B, yet cuts cross-topic leakage by up to 90% compared with the best single-direction baseline. Vectors trained in Chinese transfer almost unchanged to English (and vice versa), suggesting a language-agnostic refusal subspace. The results show that fine-grained, topic-level capability activation is achievable with minimal utility loss, paving the way for controlled LLMs deployment in security-sensitive domains.