Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

作者: Furkan Mumcu, Yasin Yilmaz

分类: cs.LG, cs.AI, cs.CR, cs.MA

发布日期: 2026-03-04

💡 一句话要点

提出对抗对齐雅可比正则化，提升Agentic AI系统鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 鲁棒性 对抗训练 雅可比正则化 多智能体系统

📋 核心要点

现有方法在Agentic AI系统中进行鲁棒训练时，全局雅可比约束过于保守，牺牲了模型性能。
提出对抗对齐雅可比正则化（AAJR），仅沿对抗方向控制模型敏感性，提高鲁棒性的同时减少性能损失。
理论证明AAJR放宽了策略约束，并推导了保证内循环稳定性的步长条件，为Agentic鲁棒性提供理论基础。

📝 摘要（中文）

随着大型语言模型（LLM）过渡到自主多智能体生态系统，鲁棒的minimax训练变得至关重要，但当高度非线性策略在内部最大化中引起极端的局部曲率时，它仍然容易不稳定。标准的补救措施是强制执行全局雅可比边界，但过于保守，抑制了所有方向的敏感性，并导致巨大的鲁棒性代价。我们引入了对抗对齐雅可比正则化（AAJR），这是一种轨迹对齐的方法，严格控制沿对抗上升方向的敏感性。我们证明，在温和的条件下，AAJR产生比全局约束严格更大的容许策略类，这意味着近似差距较小，标称性能退化减少。此外，我们推导了步长条件，在该条件下，AAJR控制沿优化轨迹的有效平滑度，并确保内部循环稳定性。这些结果为agentic鲁棒性提供了一个结构理论，将minimax稳定性与全局表达性限制解耦。

🔬 方法详解

问题定义：论文旨在解决在多智能体系统中，由于大型语言模型策略的高度非线性，导致对抗训练过程不稳定，以及传统全局雅可比正则化方法过于保守，牺牲模型性能的问题。现有方法强制全局雅可比边界，抑制了所有方向的敏感性，导致鲁棒性代价过高。

核心思路：论文的核心思路是只在对抗攻击的方向上进行雅可比正则化，而不是像传统方法那样对所有方向进行全局约束。这样既能保证模型的鲁棒性，又能避免过度约束导致的性能下降。通过对抗对齐，只关注对模型威胁最大的方向，从而更有效地利用模型的表达能力。

技术框架：AAJR方法主要包含以下几个步骤：首先，利用对抗攻击生成对抗样本；然后，计算模型在对抗样本上的雅可比矩阵；接着，只在对抗方向上对雅可比矩阵进行正则化，避免全局约束；最后，利用正则化后的损失函数进行训练。该框架的核心在于对抗样本的生成和对抗方向的雅可比正则化。

关键创新：该论文的关键创新在于提出了对抗对齐雅可比正则化（AAJR）方法，它与现有方法的本质区别在于，AAJR只在对抗方向上进行正则化，而不是全局正则化。这种方法能够更有效地控制模型的敏感性，提高鲁棒性的同时减少性能损失。此外，论文还提供了理论证明，表明AAJR放宽了策略约束，并推导了保证内循环稳定性的步长条件。

关键设计：AAJR的关键设计包括：对抗样本的生成方式（例如，使用 Projected Gradient Descent (PGD)），对抗方向的确定方法（例如，使用对抗梯度），以及雅可比正则化的强度参数。损失函数通常包含一个标准损失项和一个雅可比正则化项，其中雅可比正则化项只计算对抗方向上的雅可比矩阵的范数。网络结构的选择取决于具体的应用场景，但通常需要具有足够的表达能力来学习复杂的策略。

📊 实验亮点

论文提出了对抗对齐雅可比正则化（AAJR），理论证明AAJR放宽了策略约束，并推导了保证内循环稳定性的步长条件。实验结果（具体数据未知）表明，AAJR在提高Agentic AI系统鲁棒性的同时，减少了性能损失，优于传统的全局雅可比正则化方法。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于各种多智能体系统，例如自动驾驶、机器人协作、博弈对抗等领域。通过提高Agentic AI系统的鲁棒性，可以减少系统在面对恶意攻击或环境扰动时的失效风险，提升系统的安全性和可靠性。此外，该方法还可以应用于模型的防御性蒸馏，提高模型的泛化能力。

📄 摘要（原文）

As Large Language Models (LLMs) transition into autonomous multi-agent ecosystems, robust minimax training becomes essential yet remains prone to instability when highly non-linear policies induce extreme local curvature in the inner maximization. Standard remedies that enforce global Jacobian bounds are overly conservative, suppressing sensitivity in all directions and inducing a large Price of Robustness. We introduce Adversarially-Aligned Jacobian Regularization (AAJR), a trajectory-aligned approach that controls sensitivity strictly along adversarial ascent directions. We prove that AAJR yields a strictly larger admissible policy class than global constraints under mild conditions, implying a weakly smaller approximation gap and reduced nominal performance degradation. Furthermore, we derive step-size conditions under which AAJR controls effective smoothness along optimization trajectories and ensures inner-loop stability. These results provide a structural theory for agentic robustness that decouples minimax stability from global expressivity restrictions.

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理