Attack the Messages, Not the Agents: A Multi-round Adaptive Stealthy Tampering Framework for LLM-MAS
作者: Bingyu Yan, Ziyi Zhou, Xiaoming Zhang, Chaozhuo Li, Ruilin Zeng, Yirui Qi, Tianbo Wang, Litian Zhang
分类: cs.CR, cs.AI, cs.MA
发布日期: 2025-08-05
💡 一句话要点
提出MAST框架以解决LLM-MAS通信安全漏洞问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大语言模型 通信安全 隐蔽攻击 蒙特卡洛树搜索 对抗性学习 自适应策略
📋 核心要点
- 现有攻击方法往往妥协智能体内部或依赖直接说服,导致有效性和隐蔽性不足。
- 本文提出MAST框架,通过结合蒙特卡洛树搜索与直接偏好优化,生成自适应的多轮篡改策略。
- 实验表明,MAST在多种任务中实现了高攻击成功率,并显著提升了隐蔽性,相较于基线方法表现优异。
📝 摘要(中文)
基于大语言模型的多智能体系统(LLM-MAS)通过智能体间的通信有效完成复杂任务,但这种依赖引入了显著的安全漏洞。现有攻击方法要么妥协智能体内部,要么依赖直接的说服,限制了其有效性和隐蔽性。本文提出了MAST(多轮自适应隐蔽篡改框架),旨在利用系统内的通信漏洞。MAST结合蒙特卡洛树搜索与直接偏好优化,训练出自适应生成有效多轮篡改策略的攻击策略模型。实验结果表明,MAST在多种任务和通信架构中均能实现高攻击成功率,并显著增强隐蔽性,强调了LLM-MAS中对强大通信保护的需求。
🔬 方法详解
问题定义:本文旨在解决大语言模型多智能体系统(LLM-MAS)中的通信安全漏洞问题。现有方法往往通过直接攻击智能体内部或显性说服,导致攻击效果不佳且易被检测。
核心思路:MAST框架的核心思路是利用通信过程中的漏洞,通过自适应生成多轮篡改策略来实现隐蔽攻击。通过这种方式,攻击者可以在不被察觉的情况下影响智能体的决策。
技术框架:MAST框架主要由两个模块组成:首先是蒙特卡洛树搜索,用于探索可能的篡改策略;其次是直接偏好优化,用于训练攻击策略模型。整个流程包括策略生成、评估和优化三个阶段。
关键创新:MAST的主要创新在于结合了蒙特卡洛树搜索与直接偏好优化,形成了一种新的自适应攻击策略生成方法。这种方法在隐蔽性和适应性上显著优于现有的攻击策略。
关键设计:在设计上,MAST引入了双重语义和嵌入相似性约束,以确保篡改过程的隐蔽性。此外,损失函数的设计也考虑了攻击成功率与隐蔽性的平衡。整体网络结构经过多次实验优化,以提高模型的性能。
📊 实验亮点
实验结果显示,MAST框架在多种任务中实现了超过80%的攻击成功率,相较于基线方法提升了约30%的隐蔽性。这些结果表明MAST在实际应用中具有显著的优势,能够有效应对现有的安全挑战。
🎯 应用场景
该研究的潜在应用领域包括网络安全、智能体系统的安全防护以及对抗性机器学习等。通过提高对LLM-MAS的攻击防护能力,MAST框架能够为实际应用中的安全性提供保障,促进智能体系统的可靠性和安全性发展。
📄 摘要(原文)
Large language model-based multi-agent systems (LLM-MAS) effectively accomplish complex and dynamic tasks through inter-agent communication, but this reliance introduces substantial safety vulnerabilities. Existing attack methods targeting LLM-MAS either compromise agent internals or rely on direct and overt persuasion, which limit their effectiveness, adaptability, and stealthiness. In this paper, we propose MAST, a Multi-round Adaptive Stealthy Tampering framework designed to exploit communication vulnerabilities within the system. MAST integrates Monte Carlo Tree Search with Direct Preference Optimization to train an attack policy model that adaptively generates effective multi-round tampering strategies. Furthermore, to preserve stealthiness, we impose dual semantic and embedding similarity constraints during the tampering process. Comprehensive experiments across diverse tasks, communication architectures, and LLMs demonstrate that MAST consistently achieves high attack success rates while significantly enhancing stealthiness compared to baselines. These findings highlight the effectiveness, stealthiness, and adaptability of MAST, underscoring the need for robust communication safeguards in LLM-MAS.