Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object
作者: Chanmi Lee, Minsung Yoon, Woojae Kim, Sebin Lee, Sung-eui Yoon
分类: cs.RO, cs.CV
发布日期: 2026-03-05
备注: 8 pages, 10 figures, Accepted to ICRA 2026. Project page: https://chan-mi-lee.github.io/3DAdvObj/
💡 一句话要点
提出基于可微渲染的视角一致3D对抗物体,提升机器人视觉策略的鲁棒性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 对抗样本 可微渲染 3D对抗物体 视觉运动策略 机器人 视角一致性 期望变换 课程学习
📋 核心要点
- 现有的2D对抗补丁在动态视角下效果不佳,无法有效攻击机器人视觉策略。
- 通过可微渲染优化3D对抗纹理,保证视角一致性,增强攻击的鲁棒性。
- 结合EOT、C2F课程学习和显著性引导扰动,提升对抗样本的生成效率和攻击效果。
📝 摘要(中文)
基于神经网络的视觉运动策略使机器人能够执行操作任务,但仍然容易受到感知攻击。传统的2D对抗补丁在固定相机设置下有效,因为外观相对一致;然而,由于透视畸变,它们在来自移动相机的动态视角下(例如腕载相机)的效力通常会降低。为了主动研究超出2D补丁的潜在漏洞,本文提出了一种通过可微渲染进行3D物体的视角一致对抗纹理优化方法。作为优化策略,我们采用具有由粗到精(C2F)课程的期望变换(EOT),利用距离相关的频率特性来诱导在不同相机-物体距离下有效的纹理。我们进一步整合了显著性引导的扰动,以重定向策略注意力,并设计了一个有针对性的损失,持续驱动机器人朝向对抗物体。全面的实验表明,该方法在各种环境条件下有效,同时证实了其黑盒可迁移性和真实世界的适用性。
🔬 方法详解
问题定义:现有的基于神经网络的视觉运动策略容易受到对抗攻击,尤其是在动态视角下。传统的2D对抗补丁在固定视角下有效,但在机器人操作任务中,相机通常是移动的(例如腕载相机),导致视角变化,使得2D对抗补丁的攻击效果大大降低。因此,需要一种能够在动态视角下保持攻击效果的对抗样本生成方法。
核心思路:本文的核心思路是生成视角一致的3D对抗物体。通过在3D物体表面优化纹理,并利用可微渲染技术,使得对抗纹理在不同视角下都能有效地欺骗视觉运动策略。这种方法能够克服2D对抗补丁在视角变化下的局限性,提高攻击的鲁棒性。
技术框架:该方法主要包含以下几个模块:1) 3D物体建模:选择或创建需要进行对抗攻击的3D物体模型。2) 可微渲染:使用可微渲染器将3D物体渲染成2D图像,以便计算对抗损失。3) 对抗纹理优化:通过优化3D物体的纹理,使得视觉运动策略在观察到该物体时产生错误的动作。4) 策略评估:在不同的视角和环境下评估对抗样本的攻击效果。整个流程通过梯度反向传播,不断优化3D物体的纹理,直到达到预期的攻击效果。
关键创新:该方法最重要的技术创新点在于视角一致的3D对抗纹理生成。与传统的2D对抗补丁相比,该方法生成的对抗样本在不同视角下都具有攻击性,能够有效地欺骗视觉运动策略。此外,该方法还采用了期望变换(EOT)和由粗到精(C2F)的课程学习策略,进一步提高了对抗样本的生成效率和攻击效果。
关键设计:关键设计包括:1) 期望变换(EOT):通过对视角进行随机变换,使得对抗纹理对视角变化具有鲁棒性。2) 由粗到精(C2F)课程学习:首先优化低频纹理,然后再优化高频纹理,从而提高对抗纹理的生成效率。3) 显著性引导扰动:利用显著性图引导对抗纹理的生成,使得对抗纹理能够集中在视觉运动策略关注的区域,从而提高攻击效果。4) 目标损失函数:设计一个目标损失函数,使得机器人持续朝向对抗物体移动,从而实现有效的攻击。
📊 实验亮点
实验结果表明,该方法生成的3D对抗物体能够有效地欺骗视觉运动策略,使其产生错误的动作。在各种环境条件下,该方法都表现出良好的攻击效果,并且具有黑盒可迁移性,即在不同的视觉运动策略上也能生效。此外,实验还验证了该方法在真实世界中的适用性,表明其具有实际应用价值。
🎯 应用场景
该研究成果可应用于评估和提升机器人视觉运动策略的安全性和鲁棒性。通过生成对抗样本,可以发现策略中的潜在漏洞,并针对性地进行改进。此外,该方法还可以用于训练更鲁棒的视觉运动策略,提高机器人在复杂环境下的适应能力。在自动驾驶、工业机器人等领域具有重要的应用价值。
📄 摘要(原文)
Neural network-based visuomotor policies enable robots to perform manipulation tasks but remain susceptible to perceptual attacks. For example, conventional 2D adversarial patches are effective under fixed-camera setups, where appearance is relatively consistent; however, their efficacy often diminishes under dynamic viewpoints from moving cameras, such as wrist-mounted setups, due to perspective distortions. To proactively investigate potential vulnerabilities beyond 2D patches, this work proposes a viewpoint-consistent adversarial texture optimization method for 3D objects through differentiable rendering. As optimization strategies, we employ Expectation over Transformation (EOT) with a Coarse-to-Fine (C2F) curriculum, exploiting distance-dependent frequency characteristics to induce textures effective across varying camera-object distances. We further integrate saliency-guided perturbations to redirect policy attention and design a targeted loss that persistently drives robots toward adversarial objects. Our comprehensive experiments show that the proposed method is effective under various environmental conditions, while confirming its black-box transferability and real-world applicability.