Hierarchical Alignment: Enforcing Hierarchical Instruction-Following in LLMs through Logical Consistency

📄 arXiv: 2604.09075v1 📥 PDF

作者: Shu Yang, Zihao Zhou, Di Wang, Wenda Li

分类: cs.CL

发布日期: 2026-04-10


💡 一句话要点

提出神经符号分层对齐(NSHA),通过逻辑一致性增强LLM的分层指令遵循能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令遵循 指令冲突 神经符号推理 约束满足问题

📋 核心要点

  1. 现有方法在处理指令冲突时,主要关注对抗攻击,忽略了真实场景中常见的良性冲突,导致模型在复杂指令环境下表现不佳。
  2. 论文提出神经符号分层对齐(NSHA),通过显式建模指令优先级,并利用求解器引导推理,解决指令冲突问题。
  3. 实验结果表明,NSHA在规则遵循、任务执行、工具使用和安全性等方面,显著提高了模型在指令冲突下的性能,并保持了良好的通用性。

📝 摘要(中文)

大型语言模型越来越多地在来自不同来源、具有不同权限级别的多重指令下运行,包括系统策略、用户请求、工具输出和检索到的上下文。以往关于指令分层的工作主要关注对抗性攻击,忽略了真实应用中良性但常见的指令冲突。在这种情况下,模型不仅要避免安全违规,还要在指令部分或隐式冲突时保持任务效用和行为一致性。我们提出了神经符号分层对齐(NSHA),通过显式建模和执行指令优先级来实现分层指令遵循。在推理时,我们引入了求解器引导的推理,将指令解析形式化为约束满足问题,使模型能够在分层约束下导出一组最大一致的适用指令。在训练时,NSHA使用自动构建的监督将基于求解器的决策提炼到模型参数中。我们在规则遵循、任务执行、工具使用和安全性方面评估了我们的方法,涵盖了单轮和多轮交互,结果表明,NSHA在这些冲突下显著提高了性能,同时在参考设置中保持了竞争性的效用。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多重指令(来自系统策略、用户请求、工具输出等)下运行时,由于指令间的优先级和潜在冲突,导致模型难以正确执行任务的问题。现有方法主要关注对抗性攻击,忽略了真实场景中指令间的良性冲突,使得模型在复杂指令环境下难以保证任务效用和行为一致性。

核心思路:论文的核心思路是将指令解析问题形式化为约束满足问题(CSP),利用求解器(Solver)来寻找满足指令优先级约束的最大一致指令集。通过神经符号结合的方式,将求解器的决策提炼到模型参数中,从而提升模型在复杂指令环境下的指令遵循能力。

技术框架:NSHA包含两个主要阶段:推理阶段和训练阶段。在推理阶段,首先将所有指令及其优先级关系输入到求解器中,求解器输出一个最大一致的指令子集。然后,模型基于该子集进行推理和执行。在训练阶段,利用求解器生成的指令子集作为监督信号,通过蒸馏训练的方式,将求解器的决策知识迁移到模型参数中。

关键创新:NSHA的关键创新在于引入了求解器引导的推理(Solver-guided Reasoning),将指令解析问题转化为约束满足问题,从而能够显式地建模和执行指令优先级。此外,通过蒸馏训练,将求解器的决策知识迁移到模型参数中,使得模型能够在没有求解器的情况下,也能有效地处理指令冲突。

关键设计:NSHA使用自动构建的监督数据进行训练,避免了人工标注的成本。具体而言,通过随机生成具有不同优先级关系的指令集,并利用求解器生成对应的最大一致指令子集,作为训练数据。损失函数采用交叉熵损失,用于衡量模型预测的指令子集与求解器输出的指令子集之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NSHA在规则遵循、任务执行、工具使用和安全性等多个任务上,显著提高了模型在指令冲突下的性能。例如,在规则遵循任务中,NSHA的准确率比基线模型提高了10%以上。此外,NSHA在保持竞争性的通用性的同时,有效解决了指令冲突问题。

🎯 应用场景

该研究成果可应用于需要处理复杂指令和策略的智能体系统,例如智能助手、机器人控制、自动化流程等。通过确保模型能够正确理解和执行具有不同优先级的指令,可以提高系统的可靠性、安全性和用户体验。未来,该方法可以扩展到更复杂的场景,例如多智能体协作和人机协作。

📄 摘要(原文)

Large language models increasingly operate under multiple instructions from heterogeneous sources with different authority levels, including system policies, user requests, tool outputs, and retrieved context. While prior work on instruction hierarchy highlights the importance of respecting instruction priorities, it mainly focuses on adversarial attacks and overlooks the benign but common instruction conflicts that arise in real-world applications. In such settings, models must not only avoid security violations but also preserve task utility and behavioral consistency when instructions partially or implicitly conflict. We propose Neuro-Symbolic Hierarchical Alignment (NSHA) for hierarchical instruction-following by explicitly modeling and enforcing instruction priorities. At inference time, we introduce solver-guided reasoning that formulates instruction resolution as a constraint satisfaction problem, enabling the model to derive a maximally consistent set of applicable instructions under hierarchical constraints. At training time, NSHA distills solver-based decisions into model parameters using automatically constructed supervision. We evaluate our approach on rule following, task execution, tool use, and safety, covering both single-turn and multi-turn interactions, and show that NSHA significantly improves performance under such conflicts while maintaining competitive utility in reference settings.