MoonSeg3R: Monocular Online Zero-Shot Segment Anything in 3D with Reconstructive Foundation Priors

作者: Zhipeng Du, Duolikun Danier, Jan Eric Lenssen, Hakan Bilen

分类: cs.CV

发布日期: 2025-12-17

💡 一句话要点

MoonSeg3R：利用重建基础先验实现单目在线零样本3D分割

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目3D分割 零样本学习 重建基础模型 自监督学习 时间一致性 实例分割 机器人视觉

📋 核心要点

现有3D实例分割方法依赖RGB-D数据，无法在单目在线场景下有效工作，限制了应用范围。
MoonSeg3R利用重建基础模型CUT3R提供几何先验，结合自监督学习和记忆机制，实现单目在线3D分割。
实验表明，MoonSeg3R在ScanNet200和SceneNN数据集上取得了与先进RGB-D方法相当的性能。

📝 摘要（中文）

本文关注在线零样本单目3D实例分割，这是一个新颖且实用的场景，现有方法由于依赖于带位姿的RGB-D序列而无法胜任。为了克服这一限制，我们利用了最近的重建基础模型（RFM）CUT3R，从单个RGB流中提供可靠的几何先验。我们提出了MoonSeg3R，它引入了三个关键组件：（1）一个具有空间-语义蒸馏的自监督查询细化模块，将来自2D视觉基础模型（VFM）的分割掩码转换为可区分的3D查询；（2）一个3D查询索引记忆，通过检索上下文查询来提供时间一致性；（3）来自CUT3R的状态分布token，作为掩码身份描述符，以加强跨帧融合。在ScanNet200和SceneNN上的实验表明，MoonSeg3R是第一个实现在线单目3D分割的方法，并且实现了与最先进的基于RGB-D的系统具有竞争力的性能。代码和模型将会发布。

🔬 方法详解

问题定义：论文旨在解决单目在线零样本3D实例分割问题。现有方法主要依赖RGB-D数据，需要深度信息和相机位姿，这在许多实际场景中难以获取。因此，如何仅利用单目RGB视频流实现准确的3D实例分割是一个挑战。现有方法无法有效利用单帧图像中的几何信息，且缺乏时间一致性。

核心思路：论文的核心思路是利用重建基础模型（RFM）CUT3R从单目RGB流中提取可靠的几何先验信息，并将其与2D视觉基础模型（VFM）的分割结果相结合。通过自监督学习和记忆机制，将2D分割结果转化为具有区分性的3D查询，并保持时间一致性。这样可以在没有深度信息和相机位姿的情况下，实现准确的3D实例分割。

技术框架：MoonSeg3R的整体框架包含以下几个主要模块：1) 自监督查询细化模块：将2D视觉基础模型的分割掩码转换为3D查询，并利用空间-语义蒸馏进行细化。2) 3D查询索引记忆：存储和检索上下文查询，以提供时间一致性。3) 状态分布Token：利用CUT3R提取的状态分布token作为掩码身份描述符，加强跨帧融合。整个流程是：首先，利用CUT3R提取几何先验和状态分布token；然后，利用2D VFM生成分割掩码，并通过自监督查询细化模块将其转换为3D查询；接着，利用3D查询索引记忆检索上下文查询，并结合状态分布token进行跨帧融合；最后，输出3D实例分割结果。

关键创新：MoonSeg3R的关键创新在于：1) 首次提出利用重建基础模型（RFM）从单目RGB流中提取几何先验信息，用于3D实例分割。2) 提出了自监督查询细化模块，将2D分割掩码转换为具有区分性的3D查询。3) 引入了3D查询索引记忆和状态分布token，以提高时间一致性和跨帧融合效果。与现有方法相比，MoonSeg3R不需要RGB-D数据，可以在单目在线场景下实现零样本3D实例分割。

关键设计：自监督查询细化模块使用空间-语义蒸馏，通过最小化2D分割掩码和3D查询之间的差异来学习。3D查询索引记忆使用k-NN搜索来检索最相似的上下文查询。状态分布token由CUT3R提取，用于描述掩码的身份信息，并用于跨帧融合。损失函数包括分割损失、查询细化损失和时间一致性损失。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

MoonSeg3R在ScanNet200和SceneNN数据集上进行了实验，结果表明，该方法在单目在线3D实例分割任务上取得了与最先进的基于RGB-D的系统具有竞争力的性能。具体而言，MoonSeg3R在某些指标上甚至超过了现有的RGB-D方法，证明了其有效性和优越性。这是首个在单目在线场景下实现零样本3D分割的方法。

🎯 应用场景

MoonSeg3R在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如，在机器人导航中，可以利用该方法实现对周围环境的3D理解和实例分割，从而帮助机器人进行路径规划和避障。在自动驾驶中，可以用于识别和分割道路上的车辆、行人等目标，提高驾驶安全性。在增强现实中，可以将虚拟物体与真实场景进行精确的3D融合。

📄 摘要（原文）

In this paper, we focus on online zero-shot monocular 3D instance segmentation, a novel practical setting where existing approaches fail to perform because they rely on posed RGB-D sequences. To overcome this limitation, we leverage CUT3R, a recent Reconstructive Foundation Model (RFM), to provide reliable geometric priors from a single RGB stream. We propose MoonSeg3R, which introduces three key components: (1) a self-supervised query refinement module with spatial-semantic distillation that transforms segmentation masks from 2D visual foundation models (VFMs) into discriminative 3D queries; (2) a 3D query index memory that provides temporal consistency by retrieving contextual queries; and (3) a state-distribution token from CUT3R that acts as a mask identity descriptor to strengthen cross-frame fusion. Experiments on ScanNet200 and SceneNN show that MoonSeg3R is the first method to enable online monocular 3D segmentation and achieves performance competitive with state-of-the-art RGB-D-based systems. Code and models will be released.

MoonSeg3R: Monocular Online Zero-Shot Segment Anything in 3D with Reconstructive Foundation Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册