Jailbreaking Embodied LLMs via Action-level Manipulation

📄 arXiv: 2603.01414v1 📥 PDF

作者: Xinyu Huang, Qiang Yang, Leming Shen, Zijing Ma, Yuanqing Zheng

分类: cs.RO

发布日期: 2026-03-02

备注: This paper has been officially accepted for ACM SenSys 2026


💡 一句话要点

提出Blindfold框架,通过动作级操控破解具身LLM的安全防护

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身LLM 安全漏洞 对抗攻击 动作级操控 代理规划

📋 核心要点

  1. 现有具身LLM存在安全漏洞,语义良性的指令可能导致危险的物理后果,缺乏对动作层面潜在危害的有效防御。
  2. Blindfold框架通过对抗代理规划,攻陷代理LLM,生成语义安全但物理有害的动作序列,实现对具身LLM的攻击。
  3. 实验表明,Blindfold在模拟器和真实机器人环境中,攻击成功率比现有方法提升高达53%,验证了其有效性。

📝 摘要(中文)

具身大语言模型(LLM)使AI智能体能够通过自然语言指令和动作与物理世界交互。然而,除了LLM本身固有的语言层面的风险之外,具有真实世界执行能力的具身LLM引入了一种新的漏洞:表面上语义良性的指令仍然可能导致危险的现实后果,揭示了语言安全和物理结果之间的根本不一致。本文介绍Blindfold,一个自动攻击框架,它利用具身LLM在真实世界动作上下文中有限的因果推理能力。Blindfold没有对黑盒具身LLM进行迭代的试错破解,而是采用了一种对抗代理规划策略:它攻陷一个本地代理LLM,以执行表面上语义安全但执行时可能导致有害物理效果的动作级操作。Blindfold通过注入精心设计的噪声来进一步隐藏关键的恶意动作,以逃避防御机制的检测,并且它结合了一个基于规则的验证器来提高攻击的可执行性。在具身AI模拟器和真实世界的6自由度机械臂上的评估表明,Blindfold实现了比SOTA基线高出53%的攻击成功率,突显了迫切需要超越表面语言审查,转向具有后果意识的防御机制,以保护具身LLM。

🔬 方法详解

问题定义:论文旨在解决具身LLM的安全性问题,即如何利用看似无害的指令,通过精心设计的动作序列,诱导具身LLM执行危险或有害的任务。现有方法主要集中在语言层面的审查,忽略了动作层面操作的潜在风险,导致具身LLM容易受到攻击。

核心思路:论文的核心思路是利用具身LLM在因果推理方面的局限性,通过对抗性代理规划,生成看似无害但实际有害的动作序列。具体来说,首先攻陷一个本地代理LLM,使其生成能够达到攻击目标的动作序列,然后将这些动作序列转化为对目标具身LLM的指令。由于指令在语义层面是安全的,因此可以绕过现有的语言审查机制。

技术框架:Blindfold框架包含以下几个主要模块:1) 对抗代理LLM:用于生成恶意动作序列。2) 噪声注入模块:用于隐藏关键的恶意动作,避免被防御机制检测到。3) 规则验证器:用于验证生成的动作序列是否具有可执行性,确保攻击能够成功。整体流程是:首先,对抗代理LLM生成动作序列;然后,噪声注入模块对动作序列进行扰动;接着,规则验证器验证扰动后的动作序列是否仍然有效;最后,将验证通过的动作序列转化为指令,发送给目标具身LLM。

关键创新:Blindfold的关键创新在于其对抗代理规划策略,它将攻击目标从直接破解目标具身LLM,转移到攻陷一个本地代理LLM。这种方法可以有效地绕过现有的语言审查机制,并且可以利用具身LLM在因果推理方面的局限性,生成更加隐蔽和有效的攻击。与现有方法相比,Blindfold更加注重动作层面的操作,能够发现并利用具身LLM在物理世界中的潜在漏洞。

关键设计:Blindfold的关键设计包括:1) 对抗代理LLM的训练:通过对抗训练,使代理LLM能够生成能够达到攻击目标的动作序列。2) 噪声注入策略:通过精心设计的噪声注入策略,隐藏关键的恶意动作,避免被防御机制检测到。3) 规则验证器的设计:通过规则验证器,确保生成的动作序列具有可执行性,避免出现无效攻击。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Blindfold在具身AI模拟器和真实世界的6自由度机械臂上均取得了显著的攻击效果。在模拟器环境中,Blindfold的攻击成功率比SOTA基线提高了53%。在真实机器人环境中,Blindfold也能够成功地诱导机器人执行危险动作,例如打翻水杯、碰撞障碍物等,验证了其在真实世界中的有效性。

🎯 应用场景

该研究成果可应用于评估和提升具身LLM的安全性,尤其是在机器人、自动驾驶、智能家居等领域。通过Blindfold框架,可以发现具身LLM在真实世界交互中存在的潜在安全漏洞,从而开发更有效的防御机制,保障人身安全和财产安全。未来的研究可以进一步探索更复杂的攻击场景和更鲁棒的防御策略。

📄 摘要(原文)

Embodied Large Language Models (LLMs) enable AI agents to interact with the physical world through natural language instructions and actions. However, beyond the language-level risks inherent to LLMs themselves, embodied LLMs with real-world actuation introduce a new vulnerability: instructions that appear semantically benign may still lead to dangerous real-world consequences, revealing a fundamental misalignment between linguistic security and physical outcomes. In this paper, we introduce Blindfold, an automated attack framework that leverages the limited causal reasoning capabilities of embodied LLMs in real-world action contexts. Rather than iterative trial-and-error jailbreaking of black-box embodied LLMs, Blindfold adopts an Adversarial Proxy Planning strategy: it compromises a local surrogate LLM to perform action-level manipulations that appear semantically safe but could result in harmful physical effects when executed. Blindfold further conceals key malicious actions by injecting carefully crafted noise to evade detection by defense mechanisms, and it incorporates a rule-based verifier to improve the attack executability. Evaluations on both embodied AI simulators and a real-world 6DoF robotic arm show that Blindfold achieves up to 53% higher attack success rates than SOTA baselines, highlighting the urgent need to move beyond surface-level language censorship and toward consequence-aware defense mechanisms to secure embodied LLMs.