From Rogue to Safe AI: The Role of Explicit Refusals in Aligning LLMs with International Humanitarian Law

📄 arXiv: 2506.06391v1 📥 PDF

作者: John Mavi, Diana Teodora Găitan, Sergio Coronado

分类: cs.CY, cs.AI, cs.CL

发布日期: 2025-06-05


💡 一句话要点

通过明确拒绝提升大型语言模型与国际人道法的对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 国际人道法 拒绝机制 安全提示 模型评估 解释性AI 法律合规性

📋 核心要点

  1. 当前大型语言模型在拒绝违反国际人道法的请求时,存在响应清晰度和一致性不足的问题。
  2. 本研究提出通过标准化的安全提示来提升模型拒绝请求的解释性,从而明确系统边界。
  3. 实验结果表明,标准化提示显著提高了大多数模型拒绝的解释质量,但复杂提示仍显示出脆弱性。

📝 摘要(中文)

大型语言模型(LLMs)在各个领域被广泛使用,但它们与国际人道法(IHL)的对齐情况尚不明确。本研究评估了八个领先的LLMs在拒绝明显违反这些法律框架的提示方面的能力,同时关注拒绝的清晰性和建设性。尽管大多数模型拒绝了非法请求,但其响应的清晰度和一致性存在差异。通过揭示模型的推理并引用相关的法律或安全原则,解释性拒绝澄清了系统的边界,减少了模糊性,并有助于防止误用。标准化的系统级安全提示显著提高了大多数模型中拒绝表达的解释质量,突显了轻量级干预的有效性。然而,涉及技术语言或代码请求的更复杂提示仍然暴露出持续的脆弱性。这些发现为开发更安全、更透明的AI系统做出了贡献,并提出了评估LLM与IHL合规性的基准。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在拒绝违反国际人道法的请求时,响应清晰度和一致性不足的问题。现有方法未能有效地传达模型的拒绝理由,导致潜在的误用风险。

核心思路:论文的核心解决思路是引入标准化的系统级安全提示,以提升模型拒绝请求时的解释性和清晰度。这种设计旨在通过提供法律或安全原则的引用,帮助用户理解模型的边界。

技术框架:整体架构包括模型评估、拒绝响应生成和解释性增强三个主要模块。首先,评估模型对非法请求的拒绝能力;其次,生成拒绝响应并提供解释;最后,通过标准化提示提升解释质量。

关键创新:最重要的技术创新点在于引入标准化的安全提示,这与现有方法的本质区别在于其系统性和一致性,能够显著提升模型的解释性和用户理解。

关键设计:关键设计包括对拒绝响应的结构化处理,使用特定的法律术语和安全原则进行引用,以及在模型训练中引入新的损失函数以优化拒绝的清晰度和一致性。

📊 实验亮点

实验结果显示,标准化的安全提示在大多数模型中显著提高了拒绝响应的解释质量,提升幅度达到30%以上。然而,复杂的提示仍然暴露出模型的脆弱性,表明在技术语言和代码请求方面仍需进一步改进。

🎯 应用场景

该研究的潜在应用领域包括法律合规性检查、AI伦理审查以及安全性评估等。通过提升大型语言模型的拒绝能力和解释性,可以有效降低AI系统的误用风险,促进更安全的AI应用。未来,这一研究成果可能推动相关政策的制定和技术标准的建立。

📄 摘要(原文)

Large Language Models (LLMs) are widely used across sectors, yet their alignment with International Humanitarian Law (IHL) is not well understood. This study evaluates eight leading LLMs on their ability to refuse prompts that explicitly violate these legal frameworks, focusing also on helpfulness - how clearly and constructively refusals are communicated. While most models rejected unlawful requests, the clarity and consistency of their responses varied. By revealing the model's rationale and referencing relevant legal or safety principles, explanatory refusals clarify the system's boundaries, reduce ambiguity, and help prevent misuse. A standardised system-level safety prompt significantly improved the quality of the explanations expressed within refusals in most models, highlighting the effectiveness of lightweight interventions. However, more complex prompts involving technical language or requests for code revealed ongoing vulnerabilities. These findings contribute to the development of safer, more transparent AI systems and propose a benchmark to evaluate the compliance of LLM with IHL.