Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images

作者: Xiangyu Sun, Haoyi Jiang, Liu Liu, Seungtae Nam, Gyeongjin Kang, Xinjie Wang, Wei Sui, Zhizhong Su, Wenyu Liu, Xinggang Wang, Eunbyung Park

分类: cs.CV

发布日期: 2025-08-05 (更新: 2025-08-11)

备注: The code is available at https://github.com/HorizonRobotics/Uni3R

🔗 代码/项目: GITHUB

💡 一句话要点

提出Uni3R以解决无姿态多视图图像的3D重建与语义理解问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D重建 语义理解 多视图图像 高斯原语 跨视图变换器 开放词汇 计算机视觉

📋 核心要点

现有方法通常将3D重建与语义理解分开，导致可扩展性和通用性不足。
Uni3R通过跨视图变换器整合多视图信息，联合重建3D场景并进行语义理解。
实验结果显示，Uni3R在RE10K和ScanNet等基准上取得了显著的性能提升。

📝 摘要（中文）

从稀疏的2D视图重建和语义解释3D场景仍然是计算机视觉中的一个基本挑战。传统方法通常将语义理解与重建分离，或需要昂贵的逐场景优化，从而限制了它们的可扩展性和通用性。本文提出了Uni3R，一种新颖的前馈框架，能够从无姿态的多视图图像中联合重建统一的3D场景表示，并丰富开放词汇语义。该方法利用跨视图变换器有效整合任意多视图输入的信息，回归一组带有语义特征场的3D高斯原语。这种统一表示促进了高保真新视图合成、开放词汇3D语义分割和深度预测，所有这些都在单个前馈过程中完成。大量实验表明，Uni3R在多个基准上建立了新的最先进水平，包括RE10K上的25.07 PSNR和ScanNet上的55.84 mIoU。

🔬 方法详解

问题定义：本文旨在解决从无姿态多视图图像中重建3D场景及其语义理解的问题。现有方法往往将重建与语义理解分开，导致效率低下和可扩展性不足。

核心思路：Uni3R的核心思路是通过一个前馈框架，利用跨视图变换器有效整合多视图信息，直接回归带有语义特征的3D高斯原语，从而实现3D重建与语义理解的统一。

技术框架：Uni3R的整体架构包括多个模块：首先，跨视图变换器接收多视图输入，整合信息；然后，通过回归网络生成3D高斯原语；最后，利用生成的统一表示进行新视图合成、语义分割和深度预测。

关键创新：Uni3R的主要创新在于其将3D重建与开放词汇语义理解结合在一个前馈框架中，克服了传统方法的局限性，实现了更高的效率和准确性。

关键设计：在设计中，Uni3R采用了特定的损失函数以优化语义特征的学习，并使用了高效的网络结构来处理多视图输入，确保了模型的高效性和准确性。

📊 实验亮点

Uni3R在多个基准测试中表现出色，RE10K上达到25.07 PSNR，ScanNet上达到55.84 mIoU，均创下新的最先进水平，显示出其在3D重建和语义理解领域的显著优势。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、虚拟现实、增强现实等场景，其中需要从多视角图像中快速重建3D环境并进行语义分析。其实际价值在于提升了3D重建的效率和准确性，未来可能推动相关技术的广泛应用。

📄 摘要（原文）

Reconstructing and semantically interpreting 3D scenes from sparse 2D views remains a fundamental challenge in computer vision. Conventional methods often decouple semantic understanding from reconstruction or necessitate costly per-scene optimization, thereby restricting their scalability and generalizability. In this paper, we introduce Uni3R, a novel feed-forward framework that jointly reconstructs a unified 3D scene representation enriched with open-vocabulary semantics, directly from unposed multi-view images. Our approach leverages a Cross-View Transformer to robustly integrate information across arbitrary multi-view inputs, which then regresses a set of 3D Gaussian primitives endowed with semantic feature fields. This unified representation facilitates high-fidelity novel view synthesis, open-vocabulary 3D semantic segmentation, and depth prediction, all within a single, feed-forward pass. Extensive experiments demonstrate that Uni3R establishes a new state-of-the-art across multiple benchmarks, including 25.07 PSNR on RE10K and 55.84 mIoU on ScanNet. Our work signifies a novel paradigm towards generalizable, unified 3D scene reconstruction and understanding. The code is available at https://github.com/HorizonRobotics/Uni3R.

Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册