Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning

📄 arXiv: 2510.14256v2 📥 PDF

作者: Xiangyu Meng, Zixian Zhang, Zhenghao Zhang, Junchao Liao, Long Qin, Weizhi Wang

分类: cs.CV

发布日期: 2025-10-16 (更新: 2025-10-17)

备注: Our project and code are available at https://ali-videoai.github.io/identity_page


💡 一句话要点

提出Identity-GRPO,通过强化学习优化多人视频生成中的身份保持问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 身份保持 强化学习 人类反馈 多人交互

📋 核心要点

  1. 现有视频生成方法难以在多人动态交互场景中保持人物身份一致性。
  2. Identity-GRPO利用人类反馈训练视频奖励模型,并采用GRPO变体优化多人一致性。
  3. 实验表明,Identity-GRPO在人物一致性指标上显著优于现有方法,提升高达18.9%。

📝 摘要(中文)

现有的VACE和Phantom等方法在特定对象的视频生成方面取得了进展,但在动态交互场景中,多人身份保持方面表现不佳。为了解决这个问题,我们提出了Identity-GRPO,这是一个基于人类反馈的优化流程,用于改进多人身份保持的视频生成。首先,我们构建了一个视频奖励模型,该模型在一个大规模偏好数据集上进行训练,该数据集包含人工标注和合成的失真数据,并进行成对标注,重点关注在整个视频中保持人物一致性。然后,我们采用了一种针对多人一致性定制的GRPO变体,极大地增强了VACE和Phantom。通过广泛的消融研究,我们评估了标注质量和设计选择对策略优化的影响。实验表明,Identity-GRPO在人物一致性指标上比基线方法提高了18.9%,为强化学习与个性化视频生成对齐提供了可操作的见解。

🔬 方法详解

问题定义:论文旨在解决多人视频生成中身份保持一致性的问题。现有方法,如VACE和Phantom,在单人视频生成上表现良好,但在多人交互的动态场景中,无法保证不同人物在视频中的身份一致性,导致生成视频的质量下降。现有方法的痛点在于缺乏对多人身份一致性的显式建模和优化。

核心思路:论文的核心思路是利用人类反馈来指导视频生成模型的优化,从而提升多人身份保持的一致性。具体来说,首先构建一个视频奖励模型,该模型能够评估生成视频中人物身份保持的质量。然后,利用强化学习算法,根据奖励模型的反馈,优化视频生成模型的策略,使其能够生成身份保持一致性更好的视频。这种设计思路的关键在于将人类的偏好融入到模型的训练过程中,从而更好地满足用户的需求。

技术框架:Identity-GRPO的整体框架包含以下几个主要模块:1) 数据集构建:构建包含人工标注和合成失真数据的大规模偏好数据集,用于训练奖励模型。2) 奖励模型训练:训练一个视频奖励模型,该模型能够评估生成视频中人物身份保持的质量。3) 策略优化:采用GRPO(Generalized Policy Optimization)的变体,根据奖励模型的反馈,优化视频生成模型的策略。4) 视频生成:使用优化后的视频生成模型生成视频。

关键创新:论文的关键创新在于:1) 提出了一个基于人类反馈的优化流程,用于改进多人身份保持的视频生成。2) 构建了一个大规模偏好数据集,用于训练视频奖励模型。3) 采用了一种针对多人一致性定制的GRPO变体。与现有方法的本质区别在于,Identity-GRPO显式地建模和优化了多人身份一致性,并利用人类反馈来指导模型的训练。

关键设计:在奖励模型训练方面,使用了成对标注,重点关注在整个视频中保持人物一致性。在策略优化方面,采用了GRPO的变体,并针对多人一致性进行了定制。具体的损失函数和网络结构等技术细节在论文中进行了详细描述。此外,论文还进行了消融研究,评估了标注质量和设计选择对策略优化的影响。

📊 实验亮点

实验结果表明,Identity-GRPO在人物一致性指标上比基线方法(VACE和Phantom)提高了高达18.9%。消融研究验证了标注质量和设计选择对策略优化的影响。这些结果表明,Identity-GRPO能够有效提升多人视频生成中身份保持的一致性,具有显著的性能优势。

🎯 应用场景

该研究成果可应用于电影制作、游戏开发、虚拟现实等领域,提升内容生成质量和用户体验。例如,可以用于生成具有逼真人物交互的电影片段,或创建更具沉浸感和个性化的虚拟现实体验。未来,该技术有望进一步扩展到更多领域,如教育、医疗等,为人们提供更智能、更便捷的服务。

📄 摘要(原文)

While advanced methods like VACE and Phantom have advanced video generation for specific subjects in diverse scenarios, they struggle with multi-human identity preservation in dynamic interactions, where consistent identities across multiple characters are critical. To address this, we propose Identity-GRPO, a human feedback-driven optimization pipeline for refining multi-human identity-preserving video generation. First, we construct a video reward model trained on a large-scale preference dataset containing human-annotated and synthetic distortion data, with pairwise annotations focused on maintaining human consistency throughout the video. We then employ a GRPO variant tailored for multi-human consistency, which greatly enhances both VACE and Phantom. Through extensive ablation studies, we evaluate the impact of annotation quality and design choices on policy optimization. Experiments show that Identity-GRPO achieves up to 18.9% improvement in human consistency metrics over baseline methods, offering actionable insights for aligning reinforcement learning with personalized video generation.