Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild
作者: Seunguk Do, Minwoo Huh, Joonghyuk Shin, Jaesik Park
分类: cs.CV
发布日期: 2026-03-03
备注: ICLR 2026, Project webpage: https://seunguk-do.github.io/drpose
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DrPose:通过姿态直接奖励微调,提升单图到3D人体重建的自然度
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 3D人体重建 单视图重建 多视图扩散模型 姿态估计 奖励学习 姿势优化 直接奖励微调
📋 核心要点
- 现有单视图3D人体重建方法在处理动态或复杂姿势时,重建结果往往不自然,主要原因是缺乏包含多样姿势的大规模3D人体数据集。
- DrPose通过姿态直接奖励微调,利用单视图图像和人体姿势数据,训练多视图扩散模型,无需额外的3D人体资产,从而提升重建效果。
- 实验表明,DrPose在传统数据集、真实图像以及新构建的基准测试中,均取得了定性和定量的提升,尤其在处理复杂人体姿势时效果显著。
📝 摘要(中文)
单视图3D人体重建通过多视图扩散模型取得了显著进展,但重建的3D人体常呈现不自然的姿势。当重建具有动态或挑战性姿势的3D人体时,这种现象尤为明显,这归因于具有多样姿势的3D人体数据集规模有限。为了解决这个问题,我们引入了DrPose,一种姿势直接奖励微调算法,无需昂贵的3D人体资产即可对多视图扩散模型进行后训练,以适应各种姿势。DrPose仅使用与单视图图像配对的人体姿势来训练模型,采用直接奖励微调来最大化PoseScore,PoseScore是我们提出的可微奖励,用于量化生成的多视图潜在图像与真实人体姿势之间的一致性。此优化在DrPose15K上进行,这是一个从现有的人体运动数据集和姿势条件视频生成模型构建的新数据集。DrPose15K由丰富的人体姿势序列数据构建,与现有的3D人体数据集相比,具有更广泛的姿势分布。我们通过在传统基准数据集、真实图像和一个新构建的基准上进行评估来验证我们的方法,特别关注评估在具有挑战性的人体姿势上的性能。结果表明,在所有基准测试中都取得了持续的定性和定量改进。
🔬 方法详解
问题定义:现有单视图到3D人体重建方法,尤其是在处理具有挑战性的姿势时,重建的3D人体姿势不自然。主要原因是缺乏足够大的、包含多样姿势的3D人体数据集,导致模型难以学习到各种姿势的正确表示。
核心思路:DrPose的核心思路是通过直接奖励微调,利用单视图图像和对应的人体姿势信息,对预训练的多视图扩散模型进行后训练。通过最大化生成的多视图图像与给定姿势的一致性,来提升模型生成自然姿势的能力。这种方法避免了对大量3D人体数据的依赖,降低了数据获取成本。
技术框架:DrPose的整体框架包括以下几个主要步骤:1) 使用预训练的多视图扩散模型生成多视图潜在图像;2) 使用PoseScore计算生成图像与给定人体姿势之间的一致性得分;3) 使用直接奖励微调算法,根据PoseScore调整模型参数,以最大化一致性得分。DrPose15K数据集用于训练,该数据集包含单视图图像和对应的人体姿势信息。
关键创新:DrPose的关键创新在于提出了PoseScore,一种可微的奖励函数,用于量化生成的多视图潜在图像与给定人体姿势之间的一致性。PoseScore允许使用直接奖励微调算法,直接优化模型以生成更符合人体姿势的3D人体。此外,DrPose15K数据集的构建也为训练提供了更丰富的姿势信息。
关键设计:PoseScore的具体计算方式未知,但其核心思想是衡量生成的多视图图像在姿势上与给定姿势的匹配程度。直接奖励微调算法的具体实现细节未知,但其目标是根据PoseScore的梯度,调整多视图扩散模型的参数,使得模型生成的图像更符合给定的人体姿势。DrPose15K数据集的构建方式是利用现有人体运动数据集和姿势条件视频生成模型,从而生成包含大量多样姿势的数据。
🖼️ 关键图片
📊 实验亮点
DrPose在传统基准数据集、真实图像以及新构建的基准测试中均取得了显著提升。尤其是在处理具有挑战性的人体姿势时,重建结果的自然度得到了明显改善。具体性能数据未知,但论文强调了在所有测试中都观察到了持续的定性和定量改进。
🎯 应用场景
DrPose技术可应用于虚拟现实、增强现实、游戏开发、动画制作等领域,提升3D人体建模的真实感和自然度。该方法降低了对大规模3D人体数据的依赖,使得在资源有限的情况下也能实现高质量的3D人体重建,具有广泛的应用前景。
📄 摘要(原文)
Single-view 3D human reconstruction has achieved remarkable progress through the adoption of multi-view diffusion models, yet the recovered 3D humans often exhibit unnatural poses. This phenomenon becomes pronounced when reconstructing 3D humans with dynamic or challenging poses, which we attribute to the limited scale of available 3D human datasets with diverse poses. To address this limitation, we introduce DrPose, Direct Reward fine-tuning algorithm on Poses, which enables post-training of a multi-view diffusion model on diverse poses without requiring expensive 3D human assets. DrPose trains a model using only human poses paired with single-view images, employing a direct reward fine-tuning to maximize PoseScore, which is our proposed differentiable reward that quantifies consistency between a generated multi-view latent image and a ground-truth human pose. This optimization is conducted on DrPose15K, a novel dataset that was constructed from an existing human motion dataset and a pose-conditioned video generative model. Constructed from abundant human pose sequence data, DrPose15K exhibits a broader pose distribution compared to existing 3D human datasets. We validate our approach through evaluation on conventional benchmark datasets, in-the-wild images, and a newly constructed benchmark, with a particular focus on assessing performance on challenging human poses. Our results demonstrate consistent qualitative and quantitative improvements across all benchmarks. Project page: https://seunguk-do.github.io/drpose.