Physically Realistic Sequence-Level Adversarial Clothing for Robust Human-Detection Evasion

📄 arXiv: 2511.16020v2 📥 PDF

作者: Dingkun Zhou, Patrick P. K. Chan, Hengxu Wu, Shikang Zheng, Ruiqi Huang, Yuanjie Zhao

分类: cs.CV, cs.AI

发布日期: 2025-11-20 (更新: 2025-12-13)


💡 一句话要点

提出序列级对抗服装生成方法,提升人体检测规避在真实场景下的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 对抗攻击 人体检测 可穿戴设备 序列级优化 物理模拟

📋 核心要点

  1. 现有对抗服装生成方法难以维持长视频序列中的隐蔽性,无法应对运动、姿势变化和服装变形等挑战。
  2. 提出一种序列级优化框架,通过控制点参数化和物理模拟,生成在整个视频序列中保持有效的对抗性纹理。
  3. 实验表明,该方法生成的对抗服装具有很强的隐蔽性、鲁棒性和跨模型可迁移性,并在物理世界中验证了可行性。

📝 摘要(中文)

深度神经网络在人体检测方面的应用容易受到对抗性攻击的影响,这给现实监控环境带来了安全和隐私风险。可穿戴攻击提供了一种现实的威胁模型,但现有方法通常逐帧优化纹理,因此无法在包含运动、姿势变化和服装变形的长视频序列中保持隐蔽性。本文提出了一种序列级优化框架,用于生成自然、可打印的衬衫、裤子和帽子对抗性纹理,这些纹理在数字和物理环境下的整个行走视频中都有效。首先将产品图像映射到UV空间,并转换为紧凑的调色板和控制点参数化,使用ICC锁定以保持所有颜色可打印。然后,采用基于物理的人体-服装管道来模拟运动、多角度相机视角、服装动力学和光照变化。使用具有时间加权的期望-变换目标来优化控制点,从而最大限度地降低整个序列中的检测置信度。大量实验表明,该方法具有很强的稳定隐蔽性、对视角变化的高度鲁棒性和卓越的跨模型可迁移性。通过升华打印生产的物理服装在室内和室外录制下实现了可靠的抑制,证实了现实可行性。

🔬 方法详解

问题定义:现有的人体检测模型容易受到对抗攻击的影响,尤其是在可穿戴设备上。现有的对抗服装生成方法通常是逐帧优化的,这导致生成的对抗纹理在长视频序列中,由于运动、姿势变化和服装变形等因素,无法保持其对抗效果。因此,需要一种能够生成在整个视频序列中都有效的对抗服装的方法。

核心思路:本文的核心思路是进行序列级别的优化,而不是逐帧优化。通过模拟真实世界中的物理过程,例如服装的运动和变形,以及光照变化,来生成更加鲁棒的对抗纹理。同时,使用期望-变换目标函数,来优化控制点,从而最大限度地降低整个序列中的检测置信度。

技术框架:该方法的技术框架主要包括以下几个阶段:1) 产品图像映射到UV空间,并转换为紧凑的调色板和控制点参数化;2) 使用基于物理的人体-服装管道来模拟运动、多角度相机视角、服装动力学和光照变化;3) 使用具有时间加权的期望-变换目标来优化控制点。

关键创新:该方法最重要的技术创新点在于序列级别的优化和基于物理的模拟。序列级别的优化能够保证生成的对抗纹理在整个视频序列中都有效,而基于物理的模拟能够使生成的对抗纹理更加鲁棒,能够应对真实世界中的各种变化。

关键设计:在关键设计方面,该方法使用了ICC锁定来保持所有颜色可打印,并使用期望-变换目标函数来优化控制点。期望-变换目标函数能够考虑到各种可能的变换,例如视角变化和光照变化,从而使生成的对抗纹理更加鲁棒。此外,时间加权的设计使得模型更加关注序列中重要的帧。

📊 实验亮点

实验结果表明,该方法生成的对抗服装具有很强的隐蔽性,能够有效地降低人体检测模型的置信度。该方法在视角变化、跨模型迁移等方面表现出很强的鲁棒性。通过升华打印生产的物理服装在室内和室外录制下实现了可靠的抑制,证实了该方法在现实世界中的可行性。

🎯 应用场景

该研究成果可应用于保护个人隐私,防止在监控环境中被不必要地检测和识别。例如,个人可以通过穿着带有对抗纹理的服装来规避监控摄像头的人体检测,从而保护自己的隐私。此外,该技术还可以用于评估和提高人体检测模型的鲁棒性,使其更能抵抗对抗攻击。

📄 摘要(原文)

Deep neural networks used for human detection are highly vulnerable to adversarial manipulation, creating safety and privacy risks in real surveillance environments. Wearable attacks offer a realistic threat model, yet existing approaches usually optimize textures frame by frame and therefore fail to maintain concealment across long video sequences with motion, pose changes, and garment deformation. In this work, a sequence-level optimization framework is introduced to generate natural, printable adversarial textures for shirts, trousers, and hats that remain effective throughout entire walking videos in both digital and physical settings. Product images are first mapped to UV space and converted into a compact palette and control-point parameterization, with ICC locking to keep all colors printable. A physically based human-garment pipeline is then employed to simulate motion, multi-angle camera viewpoints, cloth dynamics, and illumination variation. An expectation-over-transformation objective with temporal weighting is used to optimize the control points so that detection confidence is minimized across whole sequences. Extensive experiments demonstrate strong and stable concealment, high robustness to viewpoint changes, and superior cross-model transferability. Physical garments produced with sublimation printing achieve reliable suppression under indoor and outdoor recordings, confirming real-world feasibility.