Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

📄 arXiv: 2603.04378v1 📥 PDF

作者: Furkan Mumcu, Yasin Yilmaz

分类: cs.LG, cs.AI, cs.CR, cs.MA

发布日期: 2026-03-04


💡 一句话要点

提出对抗对齐雅可比正则化,提升Agentic AI系统鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 鲁棒性 对抗训练 雅可比正则化 多智能体系统

📋 核心要点

  1. 现有方法在Agentic AI系统中进行鲁棒训练时,全局雅可比约束过于保守,牺牲了模型性能。
  2. 提出对抗对齐雅可比正则化(AAJR),仅沿对抗方向控制模型敏感性,提高鲁棒性的同时减少性能损失。
  3. 理论证明AAJR放宽了策略约束,并推导了保证内循环稳定性的步长条件,为Agentic鲁棒性提供理论基础。

📝 摘要(中文)

随着大型语言模型(LLM)过渡到自主多智能体生态系统,鲁棒的minimax训练变得至关重要,但当高度非线性策略在内部最大化中引起极端的局部曲率时,它仍然容易不稳定。标准的补救措施是强制执行全局雅可比边界,但过于保守,抑制了所有方向的敏感性,并导致巨大的鲁棒性代价。我们引入了对抗对齐雅可比正则化(AAJR),这是一种轨迹对齐的方法,严格控制沿对抗上升方向的敏感性。我们证明,在温和的条件下,AAJR产生比全局约束严格更大的容许策略类,这意味着近似差距较小,标称性能退化减少。此外,我们推导了步长条件,在该条件下,AAJR控制沿优化轨迹的有效平滑度,并确保内部循环稳定性。这些结果为agentic鲁棒性提供了一个结构理论,将minimax稳定性与全局表达性限制解耦。

🔬 方法详解

问题定义:论文旨在解决在多智能体系统中,由于大型语言模型策略的高度非线性,导致对抗训练过程不稳定,以及传统全局雅可比正则化方法过于保守,牺牲模型性能的问题。现有方法强制全局雅可比边界,抑制了所有方向的敏感性,导致鲁棒性代价过高。

核心思路:论文的核心思路是只在对抗攻击的方向上进行雅可比正则化,而不是像传统方法那样对所有方向进行全局约束。这样既能保证模型的鲁棒性,又能避免过度约束导致的性能下降。通过对抗对齐,只关注对模型威胁最大的方向,从而更有效地利用模型的表达能力。

技术框架:AAJR方法主要包含以下几个步骤:首先,利用对抗攻击生成对抗样本;然后,计算模型在对抗样本上的雅可比矩阵;接着,只在对抗方向上对雅可比矩阵进行正则化,避免全局约束;最后,利用正则化后的损失函数进行训练。该框架的核心在于对抗样本的生成和对抗方向的雅可比正则化。

关键创新:该论文的关键创新在于提出了对抗对齐雅可比正则化(AAJR)方法,它与现有方法的本质区别在于,AAJR只在对抗方向上进行正则化,而不是全局正则化。这种方法能够更有效地控制模型的敏感性,提高鲁棒性的同时减少性能损失。此外,论文还提供了理论证明,表明AAJR放宽了策略约束,并推导了保证内循环稳定性的步长条件。

关键设计:AAJR的关键设计包括:对抗样本的生成方式(例如,使用 Projected Gradient Descent (PGD)),对抗方向的确定方法(例如,使用对抗梯度),以及雅可比正则化的强度参数。损失函数通常包含一个标准损失项和一个雅可比正则化项,其中雅可比正则化项只计算对抗方向上的雅可比矩阵的范数。网络结构的选择取决于具体的应用场景,但通常需要具有足够的表达能力来学习复杂的策略。

📊 实验亮点

论文提出了对抗对齐雅可比正则化(AAJR),理论证明AAJR放宽了策略约束,并推导了保证内循环稳定性的步长条件。实验结果(具体数据未知)表明,AAJR在提高Agentic AI系统鲁棒性的同时,减少了性能损失,优于传统的全局雅可比正则化方法。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于各种多智能体系统,例如自动驾驶、机器人协作、博弈对抗等领域。通过提高Agentic AI系统的鲁棒性,可以减少系统在面对恶意攻击或环境扰动时的失效风险,提升系统的安全性和可靠性。此外,该方法还可以应用于模型的防御性蒸馏,提高模型的泛化能力。

📄 摘要(原文)

As Large Language Models (LLMs) transition into autonomous multi-agent ecosystems, robust minimax training becomes essential yet remains prone to instability when highly non-linear policies induce extreme local curvature in the inner maximization. Standard remedies that enforce global Jacobian bounds are overly conservative, suppressing sensitivity in all directions and inducing a large Price of Robustness. We introduce Adversarially-Aligned Jacobian Regularization (AAJR), a trajectory-aligned approach that controls sensitivity strictly along adversarial ascent directions. We prove that AAJR yields a strictly larger admissible policy class than global constraints under mild conditions, implying a weakly smaller approximation gap and reduced nominal performance degradation. Furthermore, we derive step-size conditions under which AAJR controls effective smoothness along optimization trajectories and ensures inner-loop stability. These results provide a structural theory for agentic robustness that decouples minimax stability from global expressivity restrictions.