From Prompt Injections to Protocol Exploits: Threats in LLM-Powered AI Agents Workflows
作者: Mohamed Amine Ferrag, Norbert Tihanyi, Djallel Hamouda, Leandros Maglaras, Abderrahmane Lakas, Merouane Debbah
分类: cs.CR, cs.AI
发布日期: 2025-06-29 (更新: 2025-12-14)
备注: The paper is published in ICT Express (Elsevier)
DOI: 10.1016/j.icte.2025.12.001
💡 一句话要点
提出统一威胁模型以解决LLM代理系统的安全问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全威胁 代理系统 攻击分类 动态信任管理 加密追踪 协议漏洞 AI安全
📋 核心要点
- 现有的LLM代理系统在安全性上存在显著不足,尤其是在插件和协议的快速发展下,导致集成脆弱。
- 论文提出了一个统一的威胁模型,系统分类了多种攻击技术,并为每种攻击提供了正式的威胁表述。
- 通过专家评审和与真实事件的对比,验证了该框架的有效性,为设计安全的AI代理系统提供了指导。
📝 摘要(中文)
自主AI代理利用大型语言模型(LLM)和结构化功能调用接口实现实时数据检索、计算和多步骤编排。然而,插件、连接器和代理间协议的快速增长超出了安全实践的适应能力,导致了依赖临时身份验证、不一致模式和弱验证的脆弱集成。本文提出了一个统一的端到端威胁模型,涵盖了主机到工具和代理间通信,系统地分类了超过三十种攻击技术,并提供了正式的威胁表述。通过专家评审和与真实事件的交叉映射,验证了该框架的有效性,提供了设计安全和弹性代理AI系统的可操作指导。
🔬 方法详解
问题定义:本文旨在解决LLM代理生态系统中存在的安全威胁,现有方法在应对快速发展的插件和协议时显得力不从心,导致了脆弱的集成和安全漏洞。
核心思路:提出一个统一的端到端威胁模型,涵盖主机到工具和代理间的通信,系统分类攻击技术,并提供正式的威胁表述,帮助识别和缓解潜在风险。
技术框架:整体架构包括攻击技术分类、威胁表述、现有防御评估和缓解策略讨论,主要模块包括输入操控、模型妥协和协议层漏洞分析。
关键创新:首次提出了一个整合输入级攻击与协议层漏洞的分类法,为LLM代理生态系统的安全设计提供了新的视角和指导。
关键设计:在攻击分类中,定义了攻击者的能力、目标和受影响的系统层,采用动态信任管理和加密来源追踪等策略来增强安全性。
📊 实验亮点
实验结果表明,提出的威胁模型能够有效识别和分类多种攻击技术,尤其是在Prompt-to-SQL注入和协议层漏洞方面,显著提高了对现有防御措施的评估能力,为设计安全的AI代理系统提供了实用的指导。
🎯 应用场景
该研究的潜在应用领域包括金融、医疗和智能家居等需要高安全性的AI代理系统。通过提供系统的安全框架,能够有效提升这些领域中AI代理的安全性和可靠性,降低潜在的安全风险。未来,随着AI技术的不断发展,该模型将对安全设计产生深远影响。
📄 摘要(原文)
Autonomous AI agents powered by large language models (LLMs) with structured function-calling interfaces enable real-time data retrieval, computation, and multi-step orchestration. However, the rapid growth of plugins, connectors, and inter-agent protocols has outpaced security practices, leading to brittle integrations that rely on ad-hoc authentication, inconsistent schemas, and weak validation. This survey introduces a unified end-to-end threat model for LLM-agent ecosystems, covering host-to-tool and agent-to-agent communications. We systematically categorize more than thirty attack techniques spanning input manipulation, model compromise, system and privacy attacks, and protocol-level vulnerabilities. For each category, we provide a formal threat formulation defining attacker capabilities, objectives, and affected system layers. Representative examples include Prompt-to-SQL injections and the Toxic Agent Flow exploit in GitHub MCP servers. We analyze attack feasibility, review existing defenses, and discuss mitigation strategies such as dynamic trust management, cryptographic provenance tracking, and sandboxed agent interfaces. The framework is validated through expert review and cross-mapping with real-world incidents and public vulnerability repositories, including CVE and NIST NVD. Compared to prior surveys, this work presents the first integrated taxonomy bridging input-level exploits and protocol-layer vulnerabilities in LLM-agent ecosystems, offering actionable guidance for designing secure and resilient agentic AI systems.