PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

作者: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu

分类: cs.CV, cs.GR, cs.LG

发布日期: 2026-03-06

备注: CVPR 2026. Project Page: https://mlpc-ucsd.github.io/PixARMesh

💡 一句话要点

PixARMesh：提出一种自回归网格原生单视图场景重建方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 单视图重建 三维场景重建 自回归模型 网格生成 深度学习

📋 核心要点

现有单视图场景重建方法依赖隐式表达或后处理，难以直接生成高质量、可编辑的网格模型。
PixARMesh提出一种自回归网格生成框架，联合预测场景布局和几何，直接生成高质量网格。
实验表明，PixARMesh在合成和真实数据集上均达到SOTA，并生成轻量级、高质量的网格。

📝 摘要（中文）

我们提出PixARMesh，一种直接从单张RGB图像自回归重建完整3D室内场景网格的方法。与依赖隐式符号距离场和事后布局优化的先前方法不同，PixARMesh在一个统一的模型中联合预测对象布局和几何形状，从而在一次前向传递中生成连贯且可供美工使用的网格。基于网格生成模型的最新进展，我们通过交叉注意力增强了点云编码器，使其具有像素对齐的图像特征和全局场景上下文，从而能够从单张图像进行精确的空间推理。场景从包含上下文、姿势和网格的统一token流中自回归生成，从而产生具有高保真几何体的紧凑网格。在合成和真实世界数据集上的实验表明，PixARMesh实现了最先进的重建质量，同时生成了轻量级、高质量的网格，可用于下游应用。

🔬 方法详解

问题定义：单视图三维场景重建旨在从单张RGB图像中恢复场景的3D结构。现有方法通常依赖于隐式符号距离场（SDF）或体素表示，需要额外的后处理步骤进行网格提取和优化，导致生成网格质量不高，难以直接应用于下游任务。此外，现有方法通常将场景布局和几何形状分开处理，缺乏整体一致性。

核心思路：PixARMesh的核心思想是利用自回归生成模型直接生成场景的网格表示。通过将场景表示为包含上下文、姿势和网格信息的统一token流，模型可以自回归地预测每个token，从而逐步构建完整的场景网格。这种方法避免了中间表示的转换和后处理步骤，能够生成高质量、连贯的网格模型。

技术框架：PixARMesh包含以下主要模块：1) 点云编码器：用于提取输入图像的点云特征。2) 像素对齐图像特征提取器：利用交叉注意力机制，将图像特征与点云特征对齐，从而增强空间推理能力。3) 全局场景上下文建模：通过Transformer网络建模全局场景上下文信息。4) 自回归网格生成器：基于Transformer解码器，自回归地生成场景网格的token序列。

关键创新：PixARMesh的关键创新在于：1) 提出了一种端到端的自回归网格生成框架，可以直接从单张RGB图像生成高质量的场景网格。2) 利用像素对齐的图像特征和全局场景上下文信息，增强了模型的空间推理能力。3) 将场景表示为统一的token流，实现了场景布局和几何形状的联合预测。

关键设计：PixARMesh使用Transformer网络作为自回归生成器的核心。模型使用交叉熵损失函数训练，以最小化预测token与真实token之间的差异。为了提高生成网格的质量，模型还使用了网格平滑损失和边长正则化损失。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

PixARMesh在合成数据集和真实数据集上均取得了state-of-the-art的重建效果。与现有方法相比，PixARMesh生成的网格更加完整、连贯，且具有更高的几何精度。实验结果表明，PixARMesh在重建质量指标（如Chamfer Distance和Normal Consistency）上显著优于现有方法，并且生成的网格更加轻量级，易于处理。

🎯 应用场景

PixARMesh生成的轻量级、高质量场景网格可广泛应用于虚拟现实（VR）、增强现实（AR）、游戏开发、机器人导航等领域。该方法能够快速生成逼真的3D场景模型，为用户提供沉浸式体验，并为机器人提供环境感知能力。未来，该技术有望应用于自动驾驶、室内设计等领域，实现更智能化的场景理解和交互。

📄 摘要（原文）

We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理