SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model

📄 arXiv: 2512.10957v1 📥 PDF

作者: Yukai Shi, Weiyu Li, Zihao Wang, Hongyang Li, Xingyu Chen, Ping Tan, Lei Zhang

分类: cs.CV, cs.AI

发布日期: 2025-12-11

备注: Project page: https://idea-research.github.io/SceneMaker/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SceneMaker:解耦去遮挡与姿态估计的开放场景三维生成框架

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 三维场景生成 去遮挡 姿态估计 解耦框架 开放场景

📋 核心要点

  1. 现有三维场景生成方法在严重遮挡和开放场景下,难以同时保证几何质量和物体姿态的准确性,这是由于缺乏足够的去遮挡和姿态估计先验知识。
  2. SceneMaker框架的核心思想是将去遮挡模型与三维物体生成解耦,并提出统一的姿态估计模型,从而提升模型在复杂场景下的性能。
  3. 实验结果表明,该解耦框架在室内和开放场景中均表现出优越性,证明了其在复杂场景三维生成任务中的有效性。

📝 摘要(中文)

本文提出了一种解耦的三维场景生成框架SceneMaker。由于缺乏足够的开放场景去遮挡和姿态估计先验,现有方法难以在严重的遮挡和开放场景设置下同时生成高质量的几何结构和精确的姿态。为了解决这些问题,我们首先将去遮挡模型与三维物体生成解耦,并通过利用图像数据集和收集的去遮挡数据集来增强其对更多样化的开放场景遮挡模式的适应性。然后,我们提出了一个统一的姿态估计模型,该模型集成了全局和局部机制,用于自注意力和交叉注意力,以提高准确性。此外,我们构建了一个开放场景三维场景数据集,以进一步扩展姿态估计模型的泛化能力。综合实验表明,我们的解耦框架在室内和开放场景中都具有优越性。我们的代码和数据集已在https://idea-research.github.io/SceneMaker/上发布。

🔬 方法详解

问题定义:现有三维场景生成方法在处理复杂场景,特别是存在严重遮挡和开放场景时,难以同时生成高质量的几何结构和准确的物体姿态。主要痛点在于缺乏足够的开放场景去遮挡和姿态估计的先验知识,导致模型泛化能力不足。

核心思路:SceneMaker的核心思路是将去遮挡模型与三维物体生成过程解耦。通过独立训练去遮挡模型,并利用更广泛的图像数据集和专门构建的去遮挡数据集,增强模型对各种遮挡模式的理解和处理能力。同时,设计统一的姿态估计模型,融合全局和局部信息,提高姿态估计的准确性。

技术框架:SceneMaker框架主要包含两个解耦的模块:去遮挡模型和三维物体生成与姿态估计模型。首先,去遮挡模型负责从输入图像中推断出被遮挡区域的内容。然后,三维物体生成模块利用去遮挡后的图像信息,结合姿态估计模型,生成完整的三维场景。姿态估计模型采用统一的架构,同时利用全局和局部信息进行自注意力和交叉注意力计算。

关键创新:该论文的关键创新在于解耦的框架设计和统一的姿态估计模型。解耦设计使得去遮挡模型可以独立训练,从而更容易利用大规模图像数据和专门的去遮挡数据集进行优化。统一的姿态估计模型通过融合全局和局部信息,提高了姿态估计的准确性和鲁棒性,克服了现有方法在复杂场景下的局限性。

关键设计:去遮挡模型使用了图像数据集和收集的去遮挡数据集进行训练,以学习更多样化的开放场景遮挡模式。姿态估计模型集成了全局和局部机制,用于自注意力和交叉注意力,以提高准确性。此外,论文还构建了一个开放场景三维场景数据集,以进一步扩展姿态估计模型的泛化能力。具体的损失函数和网络结构细节在论文中有详细描述,但此处未提供。

📊 实验亮点

实验结果表明,SceneMaker框架在室内和开放场景中均取得了显著的性能提升。通过解耦去遮挡和姿态估计,并利用大规模数据集进行训练,该框架能够生成更逼真的三维场景,并准确估计物体姿态。具体的性能数据和对比基线在论文中有详细描述,证明了该框架的优越性。

🎯 应用场景

SceneMaker框架在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。该框架能够生成高质量的三维场景,并准确估计物体姿态,为机器人提供更可靠的环境感知信息,从而提高其在复杂环境中的导航和操作能力。此外,该框架还可以用于生成逼真的虚拟环境,提升用户在VR/AR应用中的沉浸感。

📄 摘要(原文)

We propose a decoupled 3D scene generation framework called SceneMaker in this work. Due to the lack of sufficient open-set de-occlusion and pose estimation priors, existing methods struggle to simultaneously produce high-quality geometry and accurate poses under severe occlusion and open-set settings. To address these issues, we first decouple the de-occlusion model from 3D object generation, and enhance it by leveraging image datasets and collected de-occlusion datasets for much more diverse open-set occlusion patterns. Then, we propose a unified pose estimation model that integrates global and local mechanisms for both self-attention and cross-attention to improve accuracy. Besides, we construct an open-set 3D scene dataset to further extend the generalization of the pose estimation model. Comprehensive experiments demonstrate the superiority of our decoupled framework on both indoor and open-set scenes. Our codes and datasets is released at https://idea-research.github.io/SceneMaker/.