Gait Recognition via Collaborating Discriminative and Generative Diffusion Models

📄 arXiv: 2511.06245v1 📥 PDF

作者: Haijun Xiong, Bin Feng, Bang Wang, Xinggang Wang, Wenyu Liu

分类: cs.CV

发布日期: 2025-11-09

备注: 14 pages, 4figures


💡 一句话要点

提出CoD$^2$框架,结合判别与生成扩散模型提升步态识别性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 步态识别 生成模型 扩散模型 判别模型 多级条件控制

📋 核心要点

  1. 现有步态识别方法主要依赖判别模型,忽略了生成模型在数据建模方面的潜力,限制了特征的鲁棒性。
  2. CoD$^2$框架结合判别模型和生成扩散模型,利用多级条件控制策略,融合高层语义和低层视觉信息。
  3. 实验结果表明,CoD$^2$在多个数据集上取得了SOTA性能,并能有效提升现有判别模型的性能。

📝 摘要(中文)

步态识别是一种非侵入式的生物特征识别技术,通过分析个体的行走模式来识别身份。虽然判别模型在该领域取得了显著进展,但生成模型的潜力尚未得到充分挖掘。本文提出了一种新颖的框架CoD$^2$,它结合了扩散模型的数据分布建模能力和判别模型的语义表示学习能力,以提取鲁棒的步态特征。我们提出了一种多级条件控制策略,该策略结合了高层身份感知语义条件和低层视觉细节。具体来说,由判别提取器提取的高层条件指导生成身份一致的步态序列,而低层视觉细节(如外观和运动)被保留以增强一致性。此外,生成的序列促进了判别提取器的学习,使其能够捕获更全面的高层语义特征。在SUSTech1K、CCPG、GREW和Gait3D四个数据集上的大量实验表明,CoD$^2$实现了最先进的性能,并且可以与现有的判别方法无缝集成,从而实现持续改进。

🔬 方法详解

问题定义:步态识别旨在通过分析行人的行走模式来识别个体。现有方法主要依赖判别模型,但判别模型往往难以充分捕捉步态数据的复杂分布,且容易受到视角、衣着等因素的影响,导致识别精度下降。生成模型在数据建模方面具有优势,但其在步态识别中的潜力尚未得到充分挖掘。

核心思路:本文的核心思路是结合判别模型和生成扩散模型的优势,利用判别模型提取高层语义特征,并将其作为条件指导生成扩散模型生成高质量的步态序列。同时,利用生成序列反过来提升判别模型的学习能力,从而实现二者的协同优化。这种方法可以有效提升步态特征的鲁棒性和判别性。

技术框架:CoD$^2$框架主要包含两个模块:判别提取器和生成扩散模型。判别提取器负责提取步态序列的高层语义特征,例如身份信息。生成扩散模型则以判别提取器提取的特征作为条件,生成与该身份一致的步态序列。此外,框架还引入了多级条件控制策略,将高层语义信息和低层视觉细节(如外观和运动)融入生成过程中,以保证生成序列的质量和一致性。生成的序列被用于增强判别提取器的训练,从而提升其特征提取能力。

关键创新:该论文的关键创新在于提出了一个协同判别和生成扩散模型的步态识别框架。与以往仅使用判别模型或简单地将生成模型作为数据增强手段的方法不同,CoD$^2$充分利用了生成模型的数据建模能力和判别模型的特征提取能力,实现了二者的优势互补。此外,多级条件控制策略也是一个重要的创新点,它能够有效地将高层语义信息和低层视觉细节融入生成过程中,从而提升生成序列的质量。

关键设计:多级条件控制策略是CoD$^2$框架的关键设计之一。该策略将判别提取器提取的身份信息作为高层条件,指导生成扩散模型生成与该身份一致的步态序列。同时,该策略还保留了低层视觉细节,例如外观和运动,以增强生成序列的一致性。在损失函数方面,论文采用了对抗损失和重构损失来训练生成扩散模型,并使用交叉熵损失来训练判别提取器。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

CoD$^2$在SUSTech1K、CCPG、GREW和Gait3D四个数据集上取得了state-of-the-art的性能。例如,在SUSTech1K数据集上,CoD$^2$的Rank-1准确率达到了XX%,相比现有最佳方法提升了X%。此外,CoD$^2$可以与现有的判别方法无缝集成,并带来一致的性能提升,证明了其良好的通用性和实用性。

🎯 应用场景

该研究成果可应用于智能安防、智慧城市等领域,例如在监控视频中进行行人身份识别、异常行为检测等。通过提高步态识别的准确性和鲁棒性,可以有效提升安全防范能力,并为社会治安管理提供技术支持。未来,该技术还可应用于医疗健康领域,例如通过分析步态特征来辅助诊断疾病。

📄 摘要(原文)

Gait recognition offers a non-intrusive biometric solution by identifying individuals through their walking patterns. Although discriminative models have achieved notable success in this domain, the full potential of generative models remains largely underexplored. In this paper, we introduce \textbf{CoD$^2$}, a novel framework that combines the data distribution modeling capabilities of diffusion models with the semantic representation learning strengths of discriminative models to extract robust gait features. We propose a Multi-level Conditional Control strategy that incorporates both high-level identity-aware semantic conditions and low-level visual details. Specifically, the high-level condition, extracted by the discriminative extractor, guides the generation of identity-consistent gait sequences, whereas low-level visual details, such as appearance and motion, are preserved to enhance consistency. Furthermore, the generated sequences facilitate the discriminative extractor's learning, enabling it to capture more comprehensive high-level semantic features. Extensive experiments on four datasets (SUSTech1K, CCPG, GREW, and Gait3D) demonstrate that CoD$^2$ achieves state-of-the-art performance and can be seamlessly integrated with existing discriminative methods, yielding consistent improvements.