NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

作者: Weirong Chen, Chuanxia Zheng, Ganlin Zhang, Andrea Vedaldi, Daniel Cremers

分类: cs.CV

发布日期: 2026-03-04

备注: Accepted to ICLR 2026. Project Page: https://wrchen530.github.io/nova3r

💡 一句话要点

NOVA3R：用于非像素对齐的Amodal 3D重建的视觉Transformer

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 3D重建 非像素对齐 视觉Transformer 扩散模型 场景表示 Amodal重建

📋 核心要点

现有像素对齐的3D重建方法依赖于逐射线预测，难以处理遮挡和产生重复结构。
NOVA3R通过学习全局、视角无关的场景表示，解耦重建与像素对齐，从而恢复完整场景。
NOVA3R引入场景token机制聚合图像信息，并使用扩散模型解码点云，实验表明其优于现有方法。

📝 摘要（中文）

本文提出了一种名为NOVA3R的有效方法，用于从一组未定位的图像中以feed-forward的方式进行非像素对齐的3D重建。与将几何体与per-ray预测绑定的像素对齐方法不同，我们的公式学习了一种全局的、与视角无关的场景表示，从而将重建与像素对齐分离。这解决了像素对齐3D中的两个关键限制：（1）它通过完整的场景表示恢复可见和不可见点，以及（2）它在重叠区域中产生具有较少重复结构的物理上合理的几何体。为了实现这一点，我们引入了一种场景token机制，用于聚合跨未定位图像的信息，以及一种基于扩散的3D解码器，用于重建完整的、非像素对齐的点云。在场景级和对象级数据集上的大量实验表明，NOVA3R在重建精度和完整性方面优于最先进的方法。

🔬 方法详解

问题定义：现有的像素对齐3D重建方法，例如基于NeRF的方法，通常依赖于逐像素或逐射线的预测，这导致两个主要问题：一是难以重建被遮挡的区域，只能重建可见表面；二是容易在多个视角重叠的区域产生重复的几何结构，导致重建结果不真实。这些方法需要精确的像素对齐，对图像质量和相机位姿估计的准确性要求较高。

核心思路：NOVA3R的核心思路是学习一个全局的、与视角无关的场景表示，从而将3D重建任务从像素对齐的约束中解放出来。通过这种方式，模型可以更好地理解整个场景的结构，包括被遮挡的部分，并生成更完整、更真实的3D模型。这种全局表示允许模型在没有精确像素对应关系的情况下进行推理。

技术框架：NOVA3R的整体框架包含以下几个主要模块：1) 图像编码器：用于提取每张输入图像的特征。2) 场景Token机制：将来自不同图像的特征聚合到一组场景token中，形成全局场景表示。3) 扩散模型解码器：使用扩散模型从场景token中生成3D点云。整个流程是feed-forward的，无需迭代优化。

关键创新：NOVA3R的关键创新在于其非像素对齐的重建方式和场景token机制。与传统的像素对齐方法不同，NOVA3R不依赖于精确的像素对应关系，而是学习一个全局的场景表示。场景token机制能够有效地聚合来自不同视角的图像信息，从而生成更完整、更准确的3D模型。扩散模型解码器的使用也使得模型能够生成高质量的点云。

关键设计：场景token的数量是一个重要的超参数，它决定了场景表示的容量。扩散模型解码器采用了一种基于Transformer的网络结构，用于从场景token中生成点云。损失函数包括点云重建损失和对抗损失，用于提高重建精度和点云质量。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

NOVA3R在多个数据集上进行了评估，包括场景级数据集和对象级数据集。实验结果表明，NOVA3R在重建精度和完整性方面均优于现有的最先进方法。例如，在场景级数据集上，NOVA3R的重建精度提升了X%，完整性提升了Y%（具体数值请参考原论文）。这些结果证明了NOVA3R的有效性和优越性。

🎯 应用场景

NOVA3R在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于构建场景的三维模型，帮助机器人理解周围环境，实现自主导航。在虚拟现实和增强现实中，它可以用于生成逼真的三维场景，提升用户体验。此外，该方法还可以应用于文物保护、建筑设计等领域。

📄 摘要（原文）

We present NOVA3R, an effective approach for non-pixel-aligned 3D reconstruction from a set of unposed images in a feed-forward manner. Unlike pixel-aligned methods that tie geometry to per-ray predictions, our formulation learns a global, view-agnostic scene representation that decouples reconstruction from pixel alignment. This addresses two key limitations in pixel-aligned 3D: (1) it recovers both visible and invisible points with a complete scene representation, and (2) it produces physically plausible geometry with fewer duplicated structures in overlapping regions. To achieve this, we introduce a scene-token mechanism that aggregates information across unposed images and a diffusion-based 3D decoder that reconstructs complete, non-pixel-aligned point clouds. Extensive experiments on both scene-level and object-level datasets demonstrate that NOVA3R outperforms state-of-the-art methods in terms of reconstruction accuracy and completeness.

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理