Multimodal Adversarial Quality Policy for Safe Grasping

📄 arXiv: 2603.01479v1 📥 PDF

作者: Kunlin Xie Chenghao Li Haolan Zhang, Nak Young Chong

分类: cs.RO

发布日期: 2026-03-02

备注: submitted


💡 一句话要点

提出多模态对抗质量策略MAQP,保障RGBD机器人抓取的安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人抓取 对抗攻击 多模态学习 人机交互 深度学习 RGBD 安全性

📋 核心要点

  1. 基于深度神经网络的视觉引导机器人抓取虽然泛化性好,但在人机交互中存在安全风险,现有RGB模态对抗攻击方法在RGBD模态下效果有限。
  2. 论文提出多模态对抗质量策略(MAQP),通过异构双补丁优化和梯度级模态平衡,实现RGBD模态下的安全抓取。
  3. 实验结果表明,所提出的MAQP方法在基准数据集和协作机器人上均表现出良好的性能。

📝 摘要(中文)

本文提出了一种多模态对抗质量策略(MAQP),旨在实现多模态安全抓取,解决基于深度神经网络(DNN)的视觉引导机器人抓取在人机交互(HRI)中的安全风险问题。该框架包含两个关键组件:异构双补丁优化方案(HDPOS),通过采用模态特定的初始化策略(深度补丁使用高斯分布,RGB补丁使用均匀分布)并联合优化两种模态,来缓解RGB和深度模态在补丁生成中的分布差异;梯度级模态平衡策略(GLMBS),通过基于每通道敏感性分析重新加权梯度贡献,并应用距离自适应扰动边界,来解决RGB和深度补丁在补丁形状适应中的优化不平衡问题。在基准数据集和一个协作机器人上的大量实验表明了MAQP的有效性。

🔬 方法详解

问题定义:现有基于深度神经网络的视觉引导机器人抓取方法,在人机交互场景下存在安全风险。虽然已经有一些工作尝试通过对抗攻击和补丁来解决这个问题,但这些方法主要集中在RGB模态上,缺乏对深度信息的有效利用,导致在RGBD模态下效果不佳。RGB和Depth模态的分布差异以及优化不平衡是主要痛点。

核心思路:论文的核心思路是设计一种多模态对抗质量策略(MAQP),能够同时利用RGB和深度信息,生成有效的对抗补丁,从而降低机器人抓取的置信度,避免潜在的安全风险。通过异构双补丁优化方案(HDPOS)来解决RGB和深度模态的分布差异,并通过梯度级模态平衡策略(GLMBS)来解决优化不平衡问题。

技术框架:MAQP框架主要包含两个关键模块:异构双补丁优化方案(HDPOS)和梯度级模态平衡策略(GLMBS)。HDPOS负责生成针对RGB和深度模态的对抗补丁,GLMBS负责平衡两种模态在补丁形状适应过程中的优化贡献。整体流程是:首先,使用模态特定的初始化策略初始化RGB和深度补丁;然后,联合优化两种模态的补丁,使其能够有效地降低抓取置信度;最后,通过GLMBS调整梯度贡献,并应用距离自适应扰动边界,以进一步优化补丁的形状和效果。

关键创新:论文的关键创新在于提出了异构双补丁优化方案(HDPOS)和梯度级模态平衡策略(GLMBS)。HDPOS能够有效地缓解RGB和深度模态在补丁生成中的分布差异,而GLMBS能够解决RGB和深度补丁在补丁形状适应中的优化不平衡问题。与现有方法相比,MAQP能够更好地利用RGBD模态的信息,生成更有效的对抗补丁。

关键设计:HDPOS中,RGB补丁使用均匀分布初始化,深度补丁使用高斯分布初始化,这是考虑到两种模态的特性差异。GLMBS中,通过每通道敏感性分析来确定不同通道的梯度贡献权重,并使用距离自适应扰动边界来限制补丁的扰动范围。损失函数的设计目标是最小化抓取置信度,同时约束补丁的大小和扰动幅度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAQP在基准数据集上显著提高了对抗攻击的成功率,并降低了机器人抓取的置信度。在协作机器人上的实验也验证了MAQP的有效性,能够有效地避免潜在的安全风险。相较于仅使用RGB模态的方法,MAQP在RGBD模态下表现出更强的鲁棒性和更高的安全性。

🎯 应用场景

该研究成果可应用于各种人机协作的机器人抓取场景,例如工业自动化、医疗辅助、家庭服务等。通过提高机器人抓取的安全性,可以减少人机交互过程中的意外事故,提高工作效率,并促进机器人技术的更广泛应用。未来,该研究可以扩展到更复杂的多模态场景,例如结合触觉、声音等信息,进一步提高机器人抓取的鲁棒性和安全性。

📄 摘要(原文)

Vision-guided robot grasping based on Deep Neural Networks (DNNs) generalizes well but poses safety risks in the Human-Robot Interaction (HRI). Recent works solved it by designing benign adversarial attacks and patches with RGB modality, yet depth-independent characteristics limit their effectiveness on RGBD modality. In this work, we propose the Multimodal Adversarial Quality Policy (MAQP) to realize multimodal safe grasping. Our framework introduces two key components. First, the Heterogeneous Dual-Patch Optimization Scheme (HDPOS) mitigates the distribution discrepancy between RGB and depth modalities in patch generation by adopting modality-specific initialization strategies, employing a Gaussian distribution for depth patches and a uniform distribution for RGB patches, while jointly optimizing both modalities under a unified objective function. Second, the Gradient-Level Modality Balancing Strategy (GLMBS) is designed to resolve the optimization imbalance from RGB and Depth patches in patch shape adaptation by reweighting gradient contributions based on per-channel sensitivity analysis and applying distance-adaptive perturbation bounds. We conduct extensive experiments on the benchmark datasets and a cobot, showing the effectiveness of MAQP.