COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
作者: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
分类: cs.AI, cs.CY
发布日期: 2026-01-05
💡 一句话要点
COMPASS:评估LLM在组织特定策略对齐的框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 策略对齐 安全评估 对抗鲁棒性 企业应用
📋 核心要点
- 现有LLM安全评估主要关注通用危害,忽略了组织机构内部特定的策略合规性需求,存在明显不足。
- COMPASS框架通过构建组织机构特定的允许/禁止列表,系统性地评估LLM在这些策略上的对齐程度。
- 实验表明,现有LLM在处理合法请求时表现良好,但在执行禁止策略时存在严重缺陷,拒绝率仅为13-40%。
📝 摘要(中文)
随着大型语言模型在医疗、金融等高风险企业应用中部署,确保其遵守组织特定策略至关重要。然而,现有的安全评估主要关注通用危害。我们提出了COMPASS(公司/组织策略对齐评估),这是第一个系统性框架,用于评估LLM是否符合组织的允许列表和禁止列表策略。我们将COMPASS应用于八个不同的行业场景,生成并验证了5920个查询,通过精心设计的边缘案例来测试常规合规性和对抗鲁棒性。对七个最先进的模型进行评估后,我们发现了一个根本的不对称性:模型可靠地处理合法请求(>95%的准确率),但在执行禁令方面却 катастрофически 失败,仅拒绝13-40%的对抗性禁止列表违规。这些结果表明,当前的LLM缺乏策略关键部署所需的鲁棒性,COMPASS是组织AI安全的重要评估框架。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在企业级应用中,未能有效遵守组织机构特定策略的问题。现有安全评估方法主要关注通用安全风险,缺乏针对组织内部allowlist(允许列表)和denylist(禁止列表)策略的评估。这导致LLM可能在处理看似无害的请求时,违反了组织机构的特定规定,造成潜在风险。
核心思路:论文的核心思路是构建一个系统性的评估框架COMPASS,用于衡量LLM在组织机构特定策略上的对齐程度。COMPASS通过生成包含常规合规性和对抗性边缘案例的查询,来全面评估LLM对allowlist和denylist策略的遵守情况。这种方法能够更准确地反映LLM在实际应用中可能遇到的策略违规风险。
技术框架:COMPASS框架包含以下主要步骤:1) 定义组织机构特定的allowlist和denylist策略;2) 基于这些策略,生成包含常规查询和对抗性查询的测试数据集;3) 使用测试数据集评估LLM的策略遵守情况,并计算准确率、拒绝率等指标;4) 分析评估结果,识别LLM在策略执行方面的弱点,并提出改进建议。框架的核心在于测试数据的生成,需要覆盖各种可能的输入情况,包括正常请求和精心设计的对抗性攻击。
关键创新:COMPASS的关键创新在于其系统性和针对性。它是第一个专门针对组织机构特定策略对齐的评估框架,能够更准确地评估LLM在实际应用中的安全风险。此外,COMPASS还引入了对抗性查询的概念,通过精心设计的边缘案例来测试LLM的鲁棒性,从而发现潜在的策略违规漏洞。
关键设计:COMPASS框架的关键设计包括:1) 测试数据的生成策略,需要覆盖各种可能的输入情况,包括正常请求和对抗性攻击;2) 评估指标的选择,需要能够准确反映LLM在策略执行方面的性能,例如准确率、拒绝率、召回率等;3) 对抗性查询的设计,需要能够有效地绕过LLM的防御机制,从而发现潜在的策略违规漏洞。论文中没有详细说明具体的参数设置、损失函数或网络结构,因为COMPASS是一个评估框架,而非一个具体的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在处理合法请求时表现良好(>95%准确率),但在执行禁止策略时存在严重缺陷,仅拒绝13-40%的对抗性禁止列表违规。这表明现有LLM在策略关键部署中缺乏足够的鲁棒性。COMPASS框架能够有效地识别这些缺陷,为改进LLM的安全性提供了重要依据。
🎯 应用场景
COMPASS框架可应用于各种需要LLM遵守特定策略的企业级应用,例如金融、医疗、法律等。它可以帮助组织机构评估LLM的安全性,识别潜在的策略违规风险,并采取相应的措施来提高LLM的可靠性和安全性。未来,COMPASS可以扩展到支持更复杂的策略类型,并与其他安全评估工具集成,从而构建更全面的AI安全保障体系。
📄 摘要(原文)
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.