Adversarial Moral Stress Testing of Large Language Models

📄 arXiv: 2604.01108v1 📥 PDF

作者: Saeid Jamshidi, Foutse Khomh, Arghavan Moradi Dakhel, Amin Nikanjam, Mohammad Hamdaqa, Kawser Wazed Nafi

分类: cs.AI

发布日期: 2026-04-01


💡 一句话要点

提出对抗性道德压力测试框架AMST,评估LLM在对抗环境下的伦理鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 伦理风险 对抗性攻击 压力测试 鲁棒性评估 多轮交互 行为漂移

📋 核心要点

  1. 现有LLM伦理评估方法依赖单轮评估和聚合指标,难以发现多轮交互中潜在的伦理风险和性能退化。
  2. 论文提出AMST框架,通过结构化压力转换和分布感知指标,评估LLM在对抗性多轮交互中的伦理鲁棒性。
  3. 实验表明,不同LLM的鲁棒性存在差异,AMST能有效检测传统方法无法发现的退化模式,关注分布稳定性和尾部行为至关重要。

📝 摘要(中文)

评估部署在软件系统中的大型语言模型(LLM)的伦理鲁棒性仍然具有挑战性,尤其是在持续的对抗性用户交互下。现有的安全基准通常依赖于单轮评估和聚合指标,例如毒性评分和拒绝率,这对于在真实的多轮交互中可能出现的行为不稳定性提供的可见性有限。因此,在部署之前,罕见但影响重大的伦理失败和渐进式退化效应可能仍然未被检测到。本文介绍了一种对抗性道德压力测试(AMST)框架,用于评估对抗性多轮交互下的伦理鲁棒性。AMST将结构化的压力转换应用于提示,并通过分布感知的鲁棒性指标评估模型行为,这些指标捕获交互轮次中的方差、尾部风险和时间行为漂移。我们使用在受控压力条件下生成的大量对抗性场景,在包括LLaMA-3-8B、GPT-4o和DeepSeek-v3在内的几种最先进的LLM上评估AMST。结果表明,不同模型的鲁棒性概况存在显着差异,并揭示了在传统的单轮评估协议下无法观察到的退化模式。特别是,鲁棒性已被证明取决于分布稳定性和尾部行为,而不仅仅是平均性能。此外,AMST提供了一种可扩展且模型无关的压力测试方法,可以对在对抗环境中运行的LLM支持的软件系统进行鲁棒性感知评估和监控。

🔬 方法详解

问题定义:现有LLM伦理评估方法,如毒性评分和拒绝率,主要基于单轮交互,无法有效捕捉LLM在真实对抗性多轮交互中可能出现的伦理风险,例如罕见但影响重大的伦理失败和渐进式性能退化。现有方法缺乏对模型行为稳定性和尾部风险的关注,导致在部署前难以发现潜在问题。

核心思路:AMST的核心思路是通过模拟对抗性用户交互,对LLM进行持续的“压力测试”,从而暴露其伦理脆弱性。通过对输入提示进行结构化的压力转换,例如引入歧义、诱导性问题等,迫使LLM在更具挑战性的情境下做出决策,从而评估其伦理边界和鲁棒性。这种方法旨在超越传统的平均性能评估,关注模型在极端情况下的行为表现。

技术框架:AMST框架包含以下主要模块:1) 对抗性场景生成器:根据预定义的压力条件,生成一系列对抗性提示。2) 多轮交互引擎:模拟用户与LLM的多轮对话,每轮对话都基于前一轮的输出进行调整。3) 鲁棒性评估器:使用分布感知的鲁棒性指标,例如方差、尾部风险和时间行为漂移,评估LLM在多轮交互中的伦理表现。4) 结果分析器:分析评估结果,识别LLM的伦理弱点和潜在风险。

关键创新:AMST的关键创新在于其对抗性压力测试的思想和分布感知的鲁棒性评估方法。与传统的单轮评估不同,AMST模拟了真实世界中用户与LLM的复杂交互,从而更全面地评估了LLM的伦理鲁棒性。此外,AMST关注模型行为的分布特征,而不仅仅是平均性能,从而能够更好地识别潜在的伦理风险。

关键设计:AMST的关键设计包括:1) 结构化的压力转换:定义了一系列用于生成对抗性提示的规则和策略,例如引入歧义、诱导性问题、情感操控等。2) 分布感知的鲁棒性指标:使用方差、尾部风险和时间行为漂移等指标,评估LLM在多轮交互中的伦理表现。3) 可扩展的框架:AMST框架具有良好的可扩展性,可以方便地集成不同的LLM和评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同LLM(包括LLaMA-3-8B、GPT-4o和DeepSeek-v3)的伦理鲁棒性存在显著差异。AMST能够检测到传统单轮评估无法发现的性能退化模式,例如随着交互轮数的增加,模型的伦理判断能力逐渐下降。研究还发现,模型的鲁棒性不仅取决于平均性能,更取决于分布的稳定性和尾部行为。

🎯 应用场景

AMST可应用于评估和监控各种LLM驱动的软件系统,例如聊天机器人、智能助手和内容生成工具。通过识别LLM的伦理弱点,AMST可以帮助开发者改进模型设计,降低伦理风险,并确保LLM在实际应用中能够安全可靠地运行。该研究有助于推动负责任的AI发展,并促进LLM在社会中的广泛应用。

📄 摘要(原文)

Evaluating the ethical robustness of large language models (LLMs) deployed in software systems remains challenging, particularly under sustained adversarial user interaction. Existing safety benchmarks typically rely on single-round evaluations and aggregate metrics, such as toxicity scores and refusal rates, which offer limited visibility into behavioral instability that may arise during realistic multi-turn interactions. As a result, rare but high-impact ethical failures and progressive degradation effects may remain undetected prior to deployment. This paper introduces Adversarial Moral Stress Testing (AMST), a stress-based evaluation framework for assessing ethical robustness under adversarial multi-round interactions. AMST applies structured stress transformations to prompts and evaluates model behavior through distribution-aware robustness metrics that capture variance, tail risk, and temporal behavioral drift across interaction rounds. We evaluate AMST on several state-of-the-art LLMs, including LLaMA-3-8B, GPT-4o, and DeepSeek-v3, using a large set of adversarial scenarios generated under controlled stress conditions. The results demonstrate substantial differences in robustness profiles across models and expose degradation patterns that are not observable under conventional single-round evaluation protocols. In particular, robustness has been shown to depend on distributional stability and tail behavior rather than on average performance alone. Additionally, AMST provides a scalable and model-agnostic stress-testing methodology that enables robustness-aware evaluation and monitoring of LLM-enabled software systems operating in adversarial environments.