Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image
作者: Zidian Qiu, Ancong Wu
分类: cs.CV
发布日期: 2026-03-06
备注: Accepted to CVPR 2026. Project page: https://qiuzidian.github.io/pano3dcomposer-page/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Pano3DComposer:基于单张全景图像的前馈式可组合3D场景生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 3D场景生成 全景图像 对象组合 几何对齐 深度学习
📋 核心要点
- 现有方法在3D场景生成中存在迭代优化耗时、视角受限以及对象与布局耦合等问题。
- Pano3DComposer通过解耦对象生成和布局估计,利用对象-世界变换预测器实现高效的前馈式生成。
- 该方法在合成和真实数据集上表现出优越的几何精度,并能在较短时间内生成高保真3D场景。
📝 摘要(中文)
现有的可组合图像到3D场景生成方法通常需要耗时的迭代布局优化或不灵活的联合对象-布局生成。此外,大多数方法依赖于有限视角的透视图像,阻碍了完整360度环境的创建。为了解决这些限制,我们设计了Pano3DComposer,一个用于全景图像的高效前馈框架。为了将对象生成与布局估计解耦,我们提出了一个即插即用的对象-世界变换预测器。该模块将现成的图像到3D模型生成的3D对象从局部坐标转换为世界坐标。为此,我们通过使用目标对象裁剪、多视角对象渲染和相机参数,将VGGT架构适配为Alignment-VGGT,以预测变换。该预测器使用伪几何监督进行训练,以解决生成对象和真实对象之间的形状差异。对于来自未见域的输入图像,我们进一步引入了一种粗到细(C2F)对齐机制,用于Pano3DComposer,该机制通过场景渲染的反馈迭代地细化几何一致性。我们的方法在合成和真实世界数据集上实现了图像/文本到3D任务的卓越几何精度。它可以在RTX 4090 GPU上大约20秒内生成一个高保真3D场景。
🔬 方法详解
问题定义:现有方法在从图像生成3D场景时,存在以下痛点:一是需要耗时的迭代优化布局,二是视角受限,难以生成完整的360度环境,三是对象生成和布局估计耦合,缺乏灵活性。这些问题限制了3D场景生成效率和质量,尤其是在全景图像的应用中。
核心思路:Pano3DComposer的核心思路是将对象生成与布局估计解耦,采用前馈方式进行3D场景生成。通过一个即插即用的对象-世界变换预测器,将独立生成的3D对象从局部坐标转换到世界坐标,从而实现场景的组合。这种解耦和前馈的设计避免了迭代优化,提高了生成效率。
技术框架:Pano3DComposer的整体框架包括以下几个主要模块:1) 使用现成的图像到3D模型生成3D对象;2) 对象-世界变换预测器,负责将生成的对象从局部坐标转换到世界坐标;3) 粗到细(C2F)对齐机制,用于迭代地细化几何一致性,尤其是在处理来自未见域的输入图像时。整个流程是前馈式的,无需迭代优化。
关键创新:该方法最重要的技术创新点在于对象-世界变换预测器的设计。该预测器能够将独立生成的3D对象无缝地集成到统一的3D场景中,从而实现了对象生成和布局估计的解耦。此外,C2F对齐机制进一步提升了在未见域上的泛化能力。
关键设计:对象-世界变换预测器基于VGGT架构,并进行了适配,称为Alignment-VGGT。它使用目标对象裁剪、多视角对象渲染和相机参数作为输入,预测对象的变换矩阵。为了解决生成对象和真实对象之间的形状差异,该预测器使用伪几何监督进行训练。C2F对齐机制通过场景渲染的反馈,迭代地调整几何参数,以实现更精确的对齐。
🖼️ 关键图片
📊 实验亮点
Pano3DComposer在合成和真实世界数据集上都取得了优异的几何精度。实验结果表明,该方法能够生成高质量的3D场景,并且生成速度快,在配备RTX 4090 GPU的机器上,大约20秒即可生成一个场景。C2F对齐机制显著提升了在未见域上的泛化能力。
🎯 应用场景
Pano3DComposer具有广泛的应用前景,包括虚拟现实(VR)、增强现实(AR)、游戏开发、室内设计和机器人导航等领域。它可以用于快速生成逼真的3D环境,为用户提供沉浸式的体验。此外,该方法还可以应用于自动驾驶和机器人导航,帮助机器人理解和感知周围环境。
📄 摘要(原文)
Current compositional image-to-3D scene generation approaches construct 3D scenes by time-consuming iterative layout optimization or inflexible joint object-layout generation. Moreover, most methods rely on limited field-of-view perspective images, hindering the creation of complete 360-degree environments. To address these limitations, we design Pano3DComposer, an efficient feed-forward framework for panoramic images. To decouple object generation from layout estimation, we propose a plug-and-play Object-World Transformation Predictor. This module converts the 3D objects generated by off-the-shelf image-to-3D models from local to world coordinates. To achieve this, we adapt the VGGT architecture to Alignment-VGGT by using target object crop, multi-view object renderings and camera parameters to predict the transformation. The predictor is trained using pseudo-geometric supervision to address the shape discrepancy between generated and ground-truth objects. For input images from unseen domains, we further introduce a Coarse-to-Fine (C2F) alignment mechanism for Pano3DComposer that iteratively refines geometric consistency with feedback of scene rendering. Our method achieves superior geometric accuracy for image/text-to-3D tasks on synthetic and real-world datasets. It can generate a high-fidelity 3D scene in approximately 20 seconds on an RTX 4090 GPU. Project page: https://qiuzidian.github.io/pano3dcomposer-page/.