Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

作者: Zidian Qiu, Ancong Wu

分类: cs.CV

发布日期: 2026-03-06

备注: Accepted to CVPR 2026. Project page: https://qiuzidian.github.io/pano3dcomposer-page/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Pano3DComposer：基于单张全景图像的前馈式可组合3D场景生成

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 3D场景生成 全景图像 对象组合 几何对齐 深度学习

📋 核心要点

现有方法在3D场景生成中存在迭代优化耗时、视角受限以及对象与布局耦合等问题。
Pano3DComposer通过解耦对象生成和布局估计，利用对象-世界变换预测器实现高效的前馈式生成。
该方法在合成和真实数据集上表现出优越的几何精度，并能在较短时间内生成高保真3D场景。

📝 摘要（中文）

现有的可组合图像到3D场景生成方法通常需要耗时的迭代布局优化或不灵活的联合对象-布局生成。此外，大多数方法依赖于有限视角的透视图像，阻碍了完整360度环境的创建。为了解决这些限制，我们设计了Pano3DComposer，一个用于全景图像的高效前馈框架。为了将对象生成与布局估计解耦，我们提出了一个即插即用的对象-世界变换预测器。该模块将现成的图像到3D模型生成的3D对象从局部坐标转换为世界坐标。为此，我们通过使用目标对象裁剪、多视角对象渲染和相机参数，将VGGT架构适配为Alignment-VGGT，以预测变换。该预测器使用伪几何监督进行训练，以解决生成对象和真实对象之间的形状差异。对于来自未见域的输入图像，我们进一步引入了一种粗到细(C2F)对齐机制，用于Pano3DComposer，该机制通过场景渲染的反馈迭代地细化几何一致性。我们的方法在合成和真实世界数据集上实现了图像/文本到3D任务的卓越几何精度。它可以在RTX 4090 GPU上大约20秒内生成一个高保真3D场景。

🔬 方法详解

问题定义：现有方法在从图像生成3D场景时，存在以下痛点：一是需要耗时的迭代优化布局，二是视角受限，难以生成完整的360度环境，三是对象生成和布局估计耦合，缺乏灵活性。这些问题限制了3D场景生成效率和质量，尤其是在全景图像的应用中。

核心思路：Pano3DComposer的核心思路是将对象生成与布局估计解耦，采用前馈方式进行3D场景生成。通过一个即插即用的对象-世界变换预测器，将独立生成的3D对象从局部坐标转换到世界坐标，从而实现场景的组合。这种解耦和前馈的设计避免了迭代优化，提高了生成效率。

技术框架：Pano3DComposer的整体框架包括以下几个主要模块：1) 使用现成的图像到3D模型生成3D对象；2) 对象-世界变换预测器，负责将生成的对象从局部坐标转换到世界坐标；3) 粗到细(C2F)对齐机制，用于迭代地细化几何一致性，尤其是在处理来自未见域的输入图像时。整个流程是前馈式的，无需迭代优化。

关键创新：该方法最重要的技术创新点在于对象-世界变换预测器的设计。该预测器能够将独立生成的3D对象无缝地集成到统一的3D场景中，从而实现了对象生成和布局估计的解耦。此外，C2F对齐机制进一步提升了在未见域上的泛化能力。

关键设计：对象-世界变换预测器基于VGGT架构，并进行了适配，称为Alignment-VGGT。它使用目标对象裁剪、多视角对象渲染和相机参数作为输入，预测对象的变换矩阵。为了解决生成对象和真实对象之间的形状差异，该预测器使用伪几何监督进行训练。C2F对齐机制通过场景渲染的反馈，迭代地调整几何参数，以实现更精确的对齐。

🖼️ 关键图片

📊 实验亮点

Pano3DComposer在合成和真实世界数据集上都取得了优异的几何精度。实验结果表明，该方法能够生成高质量的3D场景，并且生成速度快，在配备RTX 4090 GPU的机器上，大约20秒即可生成一个场景。C2F对齐机制显著提升了在未见域上的泛化能力。

🎯 应用场景

Pano3DComposer具有广泛的应用前景，包括虚拟现实(VR)、增强现实(AR)、游戏开发、室内设计和机器人导航等领域。它可以用于快速生成逼真的3D环境，为用户提供沉浸式的体验。此外，该方法还可以应用于自动驾驶和机器人导航，帮助机器人理解和感知周围环境。

📄 摘要（原文）

Current compositional image-to-3D scene generation approaches construct 3D scenes by time-consuming iterative layout optimization or inflexible joint object-layout generation. Moreover, most methods rely on limited field-of-view perspective images, hindering the creation of complete 360-degree environments. To address these limitations, we design Pano3DComposer, an efficient feed-forward framework for panoramic images. To decouple object generation from layout estimation, we propose a plug-and-play Object-World Transformation Predictor. This module converts the 3D objects generated by off-the-shelf image-to-3D models from local to world coordinates. To achieve this, we adapt the VGGT architecture to Alignment-VGGT by using target object crop, multi-view object renderings and camera parameters to predict the transformation. The predictor is trained using pseudo-geometric supervision to address the shape discrepancy between generated and ground-truth objects. For input images from unseen domains, we further introduce a Coarse-to-Fine (C2F) alignment mechanism for Pano3DComposer that iteratively refines geometric consistency with feedback of scene rendering. Our method achieves superior geometric accuracy for image/text-to-3D tasks on synthetic and real-world datasets. It can generate a high-fidelity 3D scene in approximately 20 seconds on an RTX 4090 GPU. Project page: https://qiuzidian.github.io/pano3dcomposer-page/.

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理