Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
作者: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
分类: cs.CV
发布日期: 2026-01-07
备注: Project page: https://xdimlab.github.io/Gen3R/
💡 一句话要点
Gen3R:融合重建先验与视频扩散模型,实现场景级3D生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景生成 视频扩散模型 重建模型 几何先验 潜在变量对齐
📋 核心要点
- 现有3D生成方法难以同时保证生成质量和几何一致性,缺乏对场景结构的有效建模。
- Gen3R通过适配器将重建模型的几何先验知识融入视频扩散模型,实现RGB视频和3D几何信息的联合生成。
- 实验表明,Gen3R在单/多图像条件3D场景生成上达到SOTA,并提升了重建的鲁棒性。
📝 摘要(中文)
Gen3R 是一种将基础重建模型的强大先验知识与视频扩散模型相结合,用于场景级3D生成的方法。它通过在 VGGT 重建模型的 tokens 上训练一个适配器来重新利用该模型,从而生成几何潜在变量,并对这些变量进行正则化,使其与预训练视频扩散模型的外观潜在变量对齐。通过联合生成这些解耦但对齐的潜在变量,Gen3R 可以生成 RGB 视频以及相应的 3D 几何信息,包括相机姿态、深度图和全局点云。实验表明,该方法在单图像和多图像条件下的 3D 场景生成方面均取得了最先进的结果。此外,该方法还可以通过利用生成先验来增强重建的鲁棒性,展示了紧密耦合重建模型和生成模型的互惠互利。
🔬 方法详解
问题定义:现有3D场景生成方法通常难以兼顾生成图像的真实感和场景几何结构的一致性。一些方法依赖于大量的3D数据进行训练,而另一些方法则难以生成高质量的几何信息。因此,如何有效地利用先验知识,生成高质量且几何一致的3D场景是一个关键问题。
核心思路:Gen3R的核心思路是将重建模型的强大几何先验知识与视频扩散模型的生成能力相结合。通过利用预训练的VGGT重建模型提取几何特征,并将其与视频扩散模型的外观特征对齐,从而实现RGB视频和3D几何信息的联合生成。这种方法能够有效地利用两种模型的优势,从而生成更真实、更一致的3D场景。
技术框架:Gen3R的整体框架包含以下几个主要模块:1) VGGT重建模型:用于提取场景的几何特征;2) 适配器:用于将VGGT模型的tokens转换为几何潜在变量;3) 视频扩散模型:用于生成RGB视频;4) 对齐模块:用于将几何潜在变量与外观潜在变量对齐。该框架首先使用VGGT重建模型提取几何特征,然后通过适配器将其转换为几何潜在变量。接着,使用视频扩散模型生成RGB视频,并使用对齐模块将几何潜在变量与外观潜在变量对齐。最后,根据生成的几何潜在变量和RGB视频,重建出3D场景。
关键创新:Gen3R最重要的技术创新点在于将重建模型的几何先验知识与视频扩散模型的生成能力相结合。与现有方法相比,Gen3R能够更有效地利用先验知识,从而生成更真实、更一致的3D场景。此外,Gen3R还提出了一种新的适配器训练方法,能够有效地将VGGT模型的tokens转换为几何潜在变量。
关键设计:Gen3R的关键设计包括:1) 适配器的网络结构:采用Transformer结构,用于将VGGT模型的tokens转换为几何潜在变量;2) 对齐模块的损失函数:采用对比损失函数,用于将几何潜在变量与外观潜在变量对齐;3) 视频扩散模型的训练方法:采用标准的视频扩散模型训练方法,用于生成RGB视频。
📊 实验亮点
Gen3R 在单图像和多图像条件下的 3D 场景生成方面均取得了最先进的结果。具体来说,在定量指标上,Gen3R 显著优于现有的基线方法。此外,实验还表明,Gen3R 可以通过利用生成先验来增强重建的鲁棒性,例如在噪声环境下也能生成较为准确的3D场景。
🎯 应用场景
Gen3R 在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成逼真的3D场景,为用户提供沉浸式的体验。此外,Gen3R还可以用于机器人导航、自动驾驶等领域,为机器人提供更准确的环境感知能力。未来,Gen3R有望成为3D内容生成的重要工具。
📄 摘要(原文)
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.