Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

📄 arXiv: 2512.05044v1 📥 PDF

作者: Yanran Zhang, Ziyi Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu

分类: cs.CV

发布日期: 2025-12-04

备注: 18 Pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出MoRe4D,联合进行3D几何重建和运动生成,从单张图像合成4D场景。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 4D场景生成 单图重建 运动生成 扩散模型 几何重建

📋 核心要点

  1. 现有方法在单图生成4D场景时,常将几何与运动解耦,导致时空不一致和泛化性差。
  2. MoRe4D联合进行运动生成和几何重建,提出深度引导的运动归一化和运动感知模块。
  3. 实验表明,MoRe4D能从单张图像生成多视角一致、动态细节丰富的高质量4D场景。

📝 摘要(中文)

从单张静态图像生成交互式动态4D场景仍然是一个核心挑战。现有的大部分先生成后重建以及先重建后生成的方法将几何结构与运动解耦,导致时空不一致性和泛化能力差。为了解决这些问题,我们扩展了先重建后生成的框架,提出了MoRe4D,用于联合进行运动生成和几何重建,以实现4D合成。我们首先引入了TrajScene-60K,一个包含60,000个视频样本的大规模数据集,具有密集的点轨迹,解决了高质量4D场景数据稀缺的问题。基于此,我们提出了一个基于扩散的4D场景轨迹生成器(4D-STraG),以联合生成几何一致且运动合理的4D点轨迹。为了利用单视图先验,我们设计了一种深度引导的运动归一化策略和一个运动感知模块,用于有效地整合几何结构和动态信息。然后,我们提出了一个4D视图合成模块(4D-ViSM),用于从4D点轨迹表示渲染具有任意相机轨迹的视频。实验表明,MoRe4D从单张图像生成具有多视角一致性和丰富动态细节的高质量4D场景。

🔬 方法详解

问题定义:论文旨在解决从单张静态图像生成高质量、时空一致的动态4D场景的问题。现有方法,如先生成后重建或先重建后生成,通常将几何结构和运动信息解耦处理,导致生成结果在时间和空间上不一致,并且泛化能力较差。此外,缺乏大规模高质量的4D场景数据集也限制了相关研究的发展。

核心思路:论文的核心思路是联合进行3D几何重建和运动生成,避免了传统方法中几何和运动信息分离的问题。通过同时考虑几何结构和运动规律,可以生成更真实、更连贯的4D场景。此外,论文还利用单视图先验信息,通过深度引导的运动归一化策略和运动感知模块,将几何结构和动态信息有效地整合起来。

技术框架:MoRe4D的整体框架包括以下几个主要模块:1) 4D场景轨迹生成器(4D-STraG):基于扩散模型,用于生成几何一致且运动合理的4D点轨迹。2) 深度引导的运动归一化策略:利用单视图深度信息,对运动进行归一化,以提高生成结果的质量。3) 运动感知模块:用于整合几何结构和动态信息,使生成结果更加真实。4) 4D视图合成模块(4D-ViSM):用于从4D点轨迹表示渲染具有任意相机轨迹的视频。

关键创新:论文的关键创新点在于:1) 提出了联合进行3D几何重建和运动生成的方法,避免了几何和运动信息分离的问题。2) 设计了深度引导的运动归一化策略和运动感知模块,有效地整合了几何结构和动态信息。3) 构建了大规模高质量的4D场景数据集TrajScene-60K,为相关研究提供了数据支持。与现有方法相比,MoRe4D能够生成更真实、更连贯的4D场景。

关键设计:4D-STraG使用扩散模型,通过逐步去噪的方式生成4D点轨迹。深度引导的运动归一化策略利用单视图深度信息对运动幅度进行调整,使其与场景深度相适应。运动感知模块采用注意力机制,将几何特征和运动特征进行融合。4D-ViSM使用可微分渲染技术,从4D点轨迹生成多视角一致的视频。

📊 实验亮点

论文构建了大规模4D场景数据集TrajScene-60K。实验结果表明,MoRe4D在生成4D场景的质量和多视角一致性方面优于现有方法。通过定性和定量评估,证明了MoRe4D能够生成具有丰富动态细节和几何一致性的高质量4D场景。具体性能数据和对比基线信息在论文中提供。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如,可以利用该技术从单张照片生成动态的3D人物模型,用于虚拟角色的创建。此外,该技术还可以用于生成逼真的虚拟场景,提升用户在VR/AR环境中的沉浸感。未来,该技术有望在自动驾驶、机器人导航等领域发挥重要作用,例如,通过单目视觉重建动态环境,提高机器人的感知能力。

📄 摘要(原文)

Generating interactive and dynamic 4D scenes from a single static image remains a core challenge. Most existing generate-then-reconstruct and reconstruct-then-generate methods decouple geometry from motion, causing spatiotemporal inconsistencies and poor generalization. To address these, we extend the reconstruct-then-generate framework to jointly perform Motion generation and geometric Reconstruction for 4D Synthesis (MoRe4D). We first introduce TrajScene-60K, a large-scale dataset of 60,000 video samples with dense point trajectories, addressing the scarcity of high-quality 4D scene data. Based on this, we propose a diffusion-based 4D Scene Trajectory Generator (4D-STraG) to jointly generate geometrically consistent and motion-plausible 4D point trajectories. To leverage single-view priors, we design a depth-guided motion normalization strategy and a motion-aware module for effective geometry and dynamics integration. We then propose a 4D View Synthesis Module (4D-ViSM) to render videos with arbitrary camera trajectories from 4D point track representations. Experiments show that MoRe4D generates high-quality 4D scenes with multi-view consistency and rich dynamic details from a single image. Code: https://github.com/Zhangyr2022/MoRe4D.