Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning

作者: Xiangyu Meng, Zixian Zhang, Zhenghao Zhang, Junchao Liao, Long Qin, Weizhi Wang

分类: cs.CV

发布日期: 2025-10-16 (更新: 2025-10-17)

备注: Our project and code are available at https://ali-videoai.github.io/identity_page

💡 一句话要点

提出Identity-GRPO，通过强化学习优化多人视频生成中的身份保持问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频生成 身份保持 强化学习 人类反馈 多人交互

📋 核心要点

现有视频生成方法难以在多人动态交互场景中保持人物身份一致性。
Identity-GRPO利用人类反馈训练视频奖励模型，并采用GRPO变体优化多人一致性。
实验表明，Identity-GRPO在人物一致性指标上显著优于现有方法，提升高达18.9%。

📝 摘要（中文）

现有的VACE和Phantom等方法在特定对象的视频生成方面取得了进展，但在动态交互场景中，多人身份保持方面表现不佳。为了解决这个问题，我们提出了Identity-GRPO，这是一个基于人类反馈的优化流程，用于改进多人身份保持的视频生成。首先，我们构建了一个视频奖励模型，该模型在一个大规模偏好数据集上进行训练，该数据集包含人工标注和合成的失真数据，并进行成对标注，重点关注在整个视频中保持人物一致性。然后，我们采用了一种针对多人一致性定制的GRPO变体，极大地增强了VACE和Phantom。通过广泛的消融研究，我们评估了标注质量和设计选择对策略优化的影响。实验表明，Identity-GRPO在人物一致性指标上比基线方法提高了18.9%，为强化学习与个性化视频生成对齐提供了可操作的见解。

🔬 方法详解

问题定义：论文旨在解决多人视频生成中身份保持一致性的问题。现有方法，如VACE和Phantom，在单人视频生成上表现良好，但在多人交互的动态场景中，无法保证不同人物在视频中的身份一致性，导致生成视频的质量下降。现有方法的痛点在于缺乏对多人身份一致性的显式建模和优化。

核心思路：论文的核心思路是利用人类反馈来指导视频生成模型的优化，从而提升多人身份保持的一致性。具体来说，首先构建一个视频奖励模型，该模型能够评估生成视频中人物身份保持的质量。然后，利用强化学习算法，根据奖励模型的反馈，优化视频生成模型的策略，使其能够生成身份保持一致性更好的视频。这种设计思路的关键在于将人类的偏好融入到模型的训练过程中，从而更好地满足用户的需求。

技术框架：Identity-GRPO的整体框架包含以下几个主要模块：1) 数据集构建：构建包含人工标注和合成失真数据的大规模偏好数据集，用于训练奖励模型。2) 奖励模型训练：训练一个视频奖励模型，该模型能够评估生成视频中人物身份保持的质量。3) 策略优化：采用GRPO（Generalized Policy Optimization）的变体，根据奖励模型的反馈，优化视频生成模型的策略。4) 视频生成：使用优化后的视频生成模型生成视频。

关键创新：论文的关键创新在于：1) 提出了一个基于人类反馈的优化流程，用于改进多人身份保持的视频生成。2) 构建了一个大规模偏好数据集，用于训练视频奖励模型。3) 采用了一种针对多人一致性定制的GRPO变体。与现有方法的本质区别在于，Identity-GRPO显式地建模和优化了多人身份一致性，并利用人类反馈来指导模型的训练。

关键设计：在奖励模型训练方面，使用了成对标注，重点关注在整个视频中保持人物一致性。在策略优化方面，采用了GRPO的变体，并针对多人一致性进行了定制。具体的损失函数和网络结构等技术细节在论文中进行了详细描述。此外，论文还进行了消融研究，评估了标注质量和设计选择对策略优化的影响。

📊 实验亮点

实验结果表明，Identity-GRPO在人物一致性指标上比基线方法（VACE和Phantom）提高了高达18.9%。消融研究验证了标注质量和设计选择对策略优化的影响。这些结果表明，Identity-GRPO能够有效提升多人视频生成中身份保持的一致性，具有显著的性能优势。

🎯 应用场景

该研究成果可应用于电影制作、游戏开发、虚拟现实等领域，提升内容生成质量和用户体验。例如，可以用于生成具有逼真人物交互的电影片段，或创建更具沉浸感和个性化的虚拟现实体验。未来，该技术有望进一步扩展到更多领域，如教育、医疗等，为人们提供更智能、更便捷的服务。

📄 摘要（原文）

While advanced methods like VACE and Phantom have advanced video generation for specific subjects in diverse scenarios, they struggle with multi-human identity preservation in dynamic interactions, where consistent identities across multiple characters are critical. To address this, we propose Identity-GRPO, a human feedback-driven optimization pipeline for refining multi-human identity-preserving video generation. First, we construct a video reward model trained on a large-scale preference dataset containing human-annotated and synthetic distortion data, with pairwise annotations focused on maintaining human consistency throughout the video. We then employ a GRPO variant tailored for multi-human consistency, which greatly enhances both VACE and Phantom. Through extensive ablation studies, we evaluate the impact of annotation quality and design choices on policy optimization. Experiments show that Identity-GRPO achieves up to 18.9% improvement in human consistency metrics over baseline methods, offering actionable insights for aligning reinforcement learning with personalized video generation.

Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册