Towards 3D Objectness Learning in an Open World

📄 arXiv: 2510.17686v1 📥 PDF

作者: Taichi Liu, Zhenyu Wang, Ruofeng Liu, Guang Wang, Desheng Zhang

分类: cs.CV

发布日期: 2025-10-20

备注: Accepted by NeurIPS 2025


💡 一句话要点

提出OP3Det,解决开放世界中无文本提示的通用3D目标检测问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界学习 3D目标检测 类别无关检测 跨模态融合 混合专家模型

📋 核心要点

  1. 现有3D目标检测器在封闭环境中表现良好,但在开放世界中泛化能力不足,无法检测训练时未见过的物体。
  2. OP3Det利用2D基础模型的泛化能力,结合2D语义和3D几何先验生成类别无关的提议,并采用跨模态混合专家模型融合点云和图像信息。
  3. 实验结果表明,OP3Det在开放世界3D目标检测任务中显著优于现有方法,AR指标提升高达16.0%。

📝 摘要(中文)

本文研究开放世界3D目标物性学习,旨在检测3D场景中的所有物体,包括训练期间未见过的物体。传统的封闭集3D检测器难以泛化到开放世界场景,而直接采用3D开放词汇模型进行开放世界能力学习又面临词汇扩展和语义重叠的问题。为了实现通用的3D物体发现,我们提出了OP3Det,一种无需文本提示的类别无关开放世界3D检测器,用于检测3D场景中的任何物体。我们利用2D基础模型的强大泛化和零样本能力,结合2D语义先验和3D几何先验进行类别无关的提议生成,从而扩大3D物体发现范围。然后,通过在跨模态混合专家模型中整合点云和RGB图像的互补信息,OP3Det动态地路由单模态和多模态特征,以学习通用的3D物体属性。大量实验表明OP3Det具有非凡的性能,在AR指标上显著超越现有的开放世界3D检测器高达16.0%,并且比封闭世界3D检测器提高了13.5%。

🔬 方法详解

问题定义:现有3D目标检测方法通常在封闭世界假设下进行,即训练和测试数据来自相同的类别集合。然而,在实际应用中,3D场景往往包含训练时未见过的物体。直接将封闭世界的检测器应用于开放世界会导致性能显著下降。此外,利用3D开放词汇模型进行开放世界检测面临词汇扩展和语义重叠的挑战。因此,需要一种能够检测任意3D物体的通用方法,而无需预先定义类别或依赖文本提示。

核心思路:OP3Det的核心思路是利用2D基础模型的强大泛化能力和零样本学习能力,结合3D几何先验,生成类别无关的3D物体提议。通过跨模态混合专家模型,动态融合点云和RGB图像的互补信息,从而学习通用的3D物体属性。这种方法避免了对预定义类别的依赖,并能够有效地检测训练时未见过的物体。

技术框架:OP3Det的整体框架包括以下几个主要模块:1) 2D语义先验提取:利用预训练的2D基础模型提取RGB图像的语义特征。2) 3D几何先验提取:从点云数据中提取几何特征,例如形状、大小和位置。3) 类别无关提议生成:结合2D语义和3D几何先验,生成候选的3D物体提议。4) 跨模态混合专家模型:利用混合专家模型,动态地融合点云和RGB图像的特征,以学习通用的3D物体属性。5) 物体性评分:对每个提议进行评分,判断其是否包含一个物体。

关键创新:OP3Det的关键创新在于:1) 提出了一种无需文本提示的类别无关开放世界3D检测器,能够检测任意3D物体。2) 利用2D基础模型的强大泛化能力和零样本学习能力,结合3D几何先验,生成类别无关的3D物体提议。3) 采用跨模态混合专家模型,动态融合点云和RGB图像的特征,以学习通用的3D物体属性。

关键设计:在类别无关提议生成阶段,论文设计了一种融合2D语义和3D几何信息的策略,具体来说,通过将2D图像特征投影到3D空间,并与3D几何特征进行融合,从而生成高质量的3D物体提议。在跨模态混合专家模型中,论文设计了一种动态路由机制,根据输入数据的特征,自动选择合适的专家进行特征融合。损失函数方面,采用了标准的二元交叉熵损失函数来训练物体性评分模块。

📊 实验亮点

OP3Det在开放世界3D目标检测任务中取得了显著的性能提升。在实验中,OP3Det在AR指标上超越了现有的开放世界3D检测器高达16.0%,并且比封闭世界3D检测器提高了13.5%。这些结果表明,OP3Det能够有效地检测训练时未见过的物体,并且具有很强的泛化能力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、场景理解、三维重建等领域。例如,在自动驾驶中,该方法可以检测道路上的各种物体,包括行人、车辆、交通标志等,从而提高驾驶安全性。在机器人导航中,该方法可以帮助机器人理解周围环境,并进行自主导航。此外,该方法还可以用于三维场景重建,例如,可以用于生成虚拟现实和增强现实应用。

📄 摘要(原文)

Recent advancements in 3D object detection and novel category detection have made significant progress, yet research on learning generalized 3D objectness remains insufficient. In this paper, we delve into learning open-world 3D objectness, which focuses on detecting all objects in a 3D scene, including novel objects unseen during training. Traditional closed-set 3D detectors struggle to generalize to open-world scenarios, while directly incorporating 3D open-vocabulary models for open-world ability struggles with vocabulary expansion and semantic overlap. To achieve generalized 3D object discovery, We propose OP3Det, a class-agnostic Open-World Prompt-free 3D Detector to detect any objects within 3D scenes without relying on hand-crafted text prompts. We introduce the strong generalization and zero-shot capabilities of 2D foundation models, utilizing both 2D semantic priors and 3D geometric priors for class-agnostic proposals to broaden 3D object discovery. Then, by integrating complementary information from point cloud and RGB image in the cross-modal mixture of experts, OP3Det dynamically routes uni-modal and multi-modal features to learn generalized 3D objectness. Extensive experiments demonstrate the extraordinary performance of OP3Det, which significantly surpasses existing open-world 3D detectors by up to 16.0% in AR and achieves a 13.5% improvement compared to closed-world 3D detectors.