MoonSeg3R: Monocular Online Zero-Shot Segment Anything in 3D with Reconstructive Foundation Priors
作者: Zhipeng Du, Duolikun Danier, Jan Eric Lenssen, Hakan Bilen
分类: cs.CV
发布日期: 2025-12-17
💡 一句话要点
MoonSeg3R:利用重建基础先验实现单目在线零样本3D分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单目3D分割 零样本学习 重建基础模型 自监督学习 时间一致性 实例分割 机器人视觉
📋 核心要点
- 现有3D实例分割方法依赖RGB-D数据,无法在单目在线场景下有效工作,限制了应用范围。
- MoonSeg3R利用重建基础模型CUT3R提供几何先验,结合自监督学习和记忆机制,实现单目在线3D分割。
- 实验表明,MoonSeg3R在ScanNet200和SceneNN数据集上取得了与先进RGB-D方法相当的性能。
📝 摘要(中文)
本文关注在线零样本单目3D实例分割,这是一个新颖且实用的场景,现有方法由于依赖于带位姿的RGB-D序列而无法胜任。为了克服这一限制,我们利用了最近的重建基础模型(RFM)CUT3R,从单个RGB流中提供可靠的几何先验。我们提出了MoonSeg3R,它引入了三个关键组件:(1)一个具有空间-语义蒸馏的自监督查询细化模块,将来自2D视觉基础模型(VFM)的分割掩码转换为可区分的3D查询;(2)一个3D查询索引记忆,通过检索上下文查询来提供时间一致性;(3)来自CUT3R的状态分布token,作为掩码身份描述符,以加强跨帧融合。在ScanNet200和SceneNN上的实验表明,MoonSeg3R是第一个实现在线单目3D分割的方法,并且实现了与最先进的基于RGB-D的系统具有竞争力的性能。代码和模型将会发布。
🔬 方法详解
问题定义:论文旨在解决单目在线零样本3D实例分割问题。现有方法主要依赖RGB-D数据,需要深度信息和相机位姿,这在许多实际场景中难以获取。因此,如何仅利用单目RGB视频流实现准确的3D实例分割是一个挑战。现有方法无法有效利用单帧图像中的几何信息,且缺乏时间一致性。
核心思路:论文的核心思路是利用重建基础模型(RFM)CUT3R从单目RGB流中提取可靠的几何先验信息,并将其与2D视觉基础模型(VFM)的分割结果相结合。通过自监督学习和记忆机制,将2D分割结果转化为具有区分性的3D查询,并保持时间一致性。这样可以在没有深度信息和相机位姿的情况下,实现准确的3D实例分割。
技术框架:MoonSeg3R的整体框架包含以下几个主要模块:1) 自监督查询细化模块:将2D视觉基础模型的分割掩码转换为3D查询,并利用空间-语义蒸馏进行细化。2) 3D查询索引记忆:存储和检索上下文查询,以提供时间一致性。3) 状态分布Token:利用CUT3R提取的状态分布token作为掩码身份描述符,加强跨帧融合。整个流程是:首先,利用CUT3R提取几何先验和状态分布token;然后,利用2D VFM生成分割掩码,并通过自监督查询细化模块将其转换为3D查询;接着,利用3D查询索引记忆检索上下文查询,并结合状态分布token进行跨帧融合;最后,输出3D实例分割结果。
关键创新:MoonSeg3R的关键创新在于:1) 首次提出利用重建基础模型(RFM)从单目RGB流中提取几何先验信息,用于3D实例分割。2) 提出了自监督查询细化模块,将2D分割掩码转换为具有区分性的3D查询。3) 引入了3D查询索引记忆和状态分布token,以提高时间一致性和跨帧融合效果。与现有方法相比,MoonSeg3R不需要RGB-D数据,可以在单目在线场景下实现零样本3D实例分割。
关键设计:自监督查询细化模块使用空间-语义蒸馏,通过最小化2D分割掩码和3D查询之间的差异来学习。3D查询索引记忆使用k-NN搜索来检索最相似的上下文查询。状态分布token由CUT3R提取,用于描述掩码的身份信息,并用于跨帧融合。损失函数包括分割损失、查询细化损失和时间一致性损失。具体的网络结构和参数设置在论文中有详细描述。
📊 实验亮点
MoonSeg3R在ScanNet200和SceneNN数据集上进行了实验,结果表明,该方法在单目在线3D实例分割任务上取得了与最先进的基于RGB-D的系统具有竞争力的性能。具体而言,MoonSeg3R在某些指标上甚至超过了现有的RGB-D方法,证明了其有效性和优越性。这是首个在单目在线场景下实现零样本3D分割的方法。
🎯 应用场景
MoonSeg3R在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,可以利用该方法实现对周围环境的3D理解和实例分割,从而帮助机器人进行路径规划和避障。在自动驾驶中,可以用于识别和分割道路上的车辆、行人等目标,提高驾驶安全性。在增强现实中,可以将虚拟物体与真实场景进行精确的3D融合。
📄 摘要(原文)
In this paper, we focus on online zero-shot monocular 3D instance segmentation, a novel practical setting where existing approaches fail to perform because they rely on posed RGB-D sequences. To overcome this limitation, we leverage CUT3R, a recent Reconstructive Foundation Model (RFM), to provide reliable geometric priors from a single RGB stream. We propose MoonSeg3R, which introduces three key components: (1) a self-supervised query refinement module with spatial-semantic distillation that transforms segmentation masks from 2D visual foundation models (VFMs) into discriminative 3D queries; (2) a 3D query index memory that provides temporal consistency by retrieving contextual queries; and (3) a state-distribution token from CUT3R that acts as a mask identity descriptor to strengthen cross-frame fusion. Experiments on ScanNet200 and SceneNN show that MoonSeg3R is the first method to enable online monocular 3D segmentation and achieves performance competitive with state-of-the-art RGB-D-based systems. Code and models will be released.