RealDPO: Real or Not Real, that is the Preference

作者: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu

分类: cs.CV, cs.AI

发布日期: 2025-10-16 (更新: 2025-11-06)

备注: Code:https://github.com/Vchitect/RealDPO Project Page:https://vchitect.github.io/RealDPO-Project/

💡 一句话要点

RealDPO：利用真实数据偏好学习，提升视频生成模型运动真实性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion)

关键词: 视频生成 运动合成 偏好学习 直接偏好优化 DPO 真实数据 RealAction-5K

📋 核心要点

现有视频生成模型在复杂运动生成方面存在不足，难以产生自然流畅且符合上下文的运动。
RealDPO利用真实世界数据作为正样本，通过直接偏好优化（DPO）进行迭代自校正，提升运动真实性。
RealDPO在视频质量、文本对齐和运动真实感方面，均优于现有模型和偏好优化技术，并提出了RealAction-5K数据集。

📝 摘要（中文）

视频生成模型在合成质量方面取得了显著进展。然而，生成复杂的运动仍然是一个关键挑战，因为现有模型通常难以产生自然、流畅和上下文一致的运动。生成运动与真实世界运动之间的差距限制了它们的实际应用。为了解决这个问题，我们引入了RealDPO，一种新颖的对齐范式，它利用真实世界的数据作为偏好学习的积极样本，从而实现更准确的运动合成。与提供有限纠正反馈的传统监督微调（SFT）不同，RealDPO采用直接偏好优化（DPO）与定制的损失函数来增强运动的真实感。通过将真实世界的视频与错误的模型输出进行对比，RealDPO实现了迭代自校正，逐步提高运动质量。为了支持复杂运动合成中的后训练，我们提出了RealAction-5K，这是一个精心策划的高质量视频数据集，捕捉了人类日常活动，具有丰富而精确的运动细节。大量的实验表明，与最先进的模型和现有的偏好优化技术相比，RealDPO显著提高了视频质量、文本对齐和运动真实感。

🔬 方法详解

问题定义：论文旨在解决视频生成模型在生成复杂运动时，运动不自然、不流畅以及缺乏上下文一致性的问题。现有方法，如监督微调（SFT），提供的纠正反馈有限，难以有效提升运动的真实感。

核心思路：论文的核心思路是利用真实世界的数据作为正样本，通过偏好学习的方式，让模型学习区分真实运动和模型生成的错误运动，从而提升生成运动的真实性。这种方法避免了直接模仿真实数据，而是通过对比学习的方式，让模型学习运动的内在规律。

技术框架：RealDPO的技术框架主要包括以下几个部分：首先，使用预训练的视频生成模型生成初始的视频。然后，将生成的视频与真实视频进行对比，利用DPO算法进行优化。DPO算法使用一个定制的损失函数，该损失函数鼓励模型生成更接近真实运动的视频。最后，通过迭代的方式，不断优化模型，提升生成视频的运动真实性。同时，论文还提出了RealAction-5K数据集，用于支持复杂运动合成的后训练。

关键创新：RealDPO的关键创新在于将直接偏好优化（DPO）应用于视频生成模型的运动真实性提升。与传统的监督学习方法不同，DPO不需要显式的标签，而是通过对比真实数据和生成数据，让模型学习偏好。此外，RealDPO还提出了一个定制的损失函数，该损失函数能够更好地衡量生成运动的真实性。

关键设计：RealDPO的关键设计包括：1) 使用DPO算法进行优化，避免了显式标签的需求；2) 设计了一个定制的损失函数，用于衡量生成运动的真实性；3) 提出了RealAction-5K数据集，用于支持复杂运动合成的后训练。具体的参数设置和网络结构等技术细节在论文中进行了详细描述。

📊 实验亮点

实验结果表明，RealDPO在视频质量、文本对齐和运动真实感方面均优于现有方法。与最先进的模型和现有的偏好优化技术相比，RealDPO取得了显著的提升。例如，在运动真实感方面，RealDPO的指标提升了XX%，证明了其有效性。RealAction-5K数据集的发布也为后续研究提供了有力支持。

🎯 应用场景

RealDPO技术可应用于各种视频生成领域，例如游戏开发、电影制作、虚拟现实和增强现实等。它可以帮助生成更逼真、更自然的虚拟人物和场景，提升用户体验。该技术还有潜力应用于机器人控制领域，使机器人能够更自然地执行复杂的运动任务。未来，该技术有望推动视频生成和机器人控制等领域的发展。

📄 摘要（原文）

Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.

RealDPO: Real or Not Real, that is the Preference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册