PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

📄 arXiv: 2603.05888v1 📥 PDF

作者: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu

分类: cs.CV, cs.GR, cs.LG

发布日期: 2026-03-06

备注: CVPR 2026. Project Page: https://mlpc-ucsd.github.io/PixARMesh


💡 一句话要点

PixARMesh:提出一种自回归网格原生单视图场景重建方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单视图重建 三维场景重建 自回归模型 网格生成 深度学习

📋 核心要点

  1. 现有单视图场景重建方法依赖隐式表达或后处理,难以直接生成高质量、可编辑的网格模型。
  2. PixARMesh提出一种自回归网格生成框架,联合预测场景布局和几何,直接生成高质量网格。
  3. 实验表明,PixARMesh在合成和真实数据集上均达到SOTA,并生成轻量级、高质量的网格。

📝 摘要(中文)

我们提出PixARMesh,一种直接从单张RGB图像自回归重建完整3D室内场景网格的方法。与依赖隐式符号距离场和事后布局优化的先前方法不同,PixARMesh在一个统一的模型中联合预测对象布局和几何形状,从而在一次前向传递中生成连贯且可供美工使用的网格。基于网格生成模型的最新进展,我们通过交叉注意力增强了点云编码器,使其具有像素对齐的图像特征和全局场景上下文,从而能够从单张图像进行精确的空间推理。场景从包含上下文、姿势和网格的统一token流中自回归生成,从而产生具有高保真几何体的紧凑网格。在合成和真实世界数据集上的实验表明,PixARMesh实现了最先进的重建质量,同时生成了轻量级、高质量的网格,可用于下游应用。

🔬 方法详解

问题定义:单视图三维场景重建旨在从单张RGB图像中恢复场景的3D结构。现有方法通常依赖于隐式符号距离场(SDF)或体素表示,需要额外的后处理步骤进行网格提取和优化,导致生成网格质量不高,难以直接应用于下游任务。此外,现有方法通常将场景布局和几何形状分开处理,缺乏整体一致性。

核心思路:PixARMesh的核心思想是利用自回归生成模型直接生成场景的网格表示。通过将场景表示为包含上下文、姿势和网格信息的统一token流,模型可以自回归地预测每个token,从而逐步构建完整的场景网格。这种方法避免了中间表示的转换和后处理步骤,能够生成高质量、连贯的网格模型。

技术框架:PixARMesh包含以下主要模块:1) 点云编码器:用于提取输入图像的点云特征。2) 像素对齐图像特征提取器:利用交叉注意力机制,将图像特征与点云特征对齐,从而增强空间推理能力。3) 全局场景上下文建模:通过Transformer网络建模全局场景上下文信息。4) 自回归网格生成器:基于Transformer解码器,自回归地生成场景网格的token序列。

关键创新:PixARMesh的关键创新在于:1) 提出了一种端到端的自回归网格生成框架,可以直接从单张RGB图像生成高质量的场景网格。2) 利用像素对齐的图像特征和全局场景上下文信息,增强了模型的空间推理能力。3) 将场景表示为统一的token流,实现了场景布局和几何形状的联合预测。

关键设计:PixARMesh使用Transformer网络作为自回归生成器的核心。模型使用交叉熵损失函数训练,以最小化预测token与真实token之间的差异。为了提高生成网格的质量,模型还使用了网格平滑损失和边长正则化损失。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PixARMesh在合成数据集和真实数据集上均取得了state-of-the-art的重建效果。与现有方法相比,PixARMesh生成的网格更加完整、连贯,且具有更高的几何精度。实验结果表明,PixARMesh在重建质量指标(如Chamfer Distance和Normal Consistency)上显著优于现有方法,并且生成的网格更加轻量级,易于处理。

🎯 应用场景

PixARMesh生成的轻量级、高质量场景网格可广泛应用于虚拟现实(VR)、增强现实(AR)、游戏开发、机器人导航等领域。该方法能够快速生成逼真的3D场景模型,为用户提供沉浸式体验,并为机器人提供环境感知能力。未来,该技术有望应用于自动驾驶、室内设计等领域,实现更智能化的场景理解和交互。

📄 摘要(原文)

We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.