Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning

📄 arXiv: 2511.05894v1 📥 PDF

作者: Fei Yu, Quan Deng, Shengeng Tang, Yuehua Li, Lechao Cheng

分类: cs.CV

发布日期: 2025-11-08

备注: Accepted by AAAI 2026


💡 一句话要点

提出基于检索增强推理的开放世界3D场景图生成框架,用于通用和交互式3D场景理解。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D场景理解 场景图生成 开放世界 视觉-语言模型 检索增强推理

📋 核心要点

  1. 现有3D场景理解方法受限于封闭词汇监督和静态标注,难以应对开放世界场景的挑战。
  2. 论文提出结合视觉-语言模型和检索增强推理的框架,动态生成场景图并支持多模态查询。
  3. 实验表明,该方法在场景问答、视觉定位等任务上表现出色,具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种统一的开放世界3D场景图生成框架,该框架结合了检索增强推理,从而实现通用且可交互的3D场景理解。该方法集成了视觉-语言模型(VLMs)与基于检索的推理,以支持多模态探索和语言引导的交互。该框架包含两个关键组件:(1)动态场景图生成模块,用于检测对象并推断语义关系,无需固定的标签集;(2)检索增强推理管道,将场景图编码到向量数据库中,以支持文本/图像条件查询。在3DSSG和Replica基准上,我们评估了该方法在四个任务(场景问答、视觉定位、实例检索和任务规划)上的性能,证明了其在不同环境中的鲁棒泛化能力和卓越性能。结果表明,结合开放词汇感知与基于检索的推理对于可扩展的3D场景理解是有效的。

🔬 方法详解

问题定义:现有3D场景理解方法主要依赖于封闭词汇表和静态标注,无法有效处理开放世界中不断出现的新物体和关系。这限制了3D场景理解的通用性和交互性,阻碍了其在机器人等领域的应用。现有方法难以进行灵活的语义推理和知识迁移。

核心思路:论文的核心思路是将视觉-语言模型(VLMs)与检索增强推理相结合,利用VLMs的开放词汇感知能力动态生成场景图,并通过检索增强推理实现对场景图的灵活查询和推理。通过将场景图编码到向量数据库中,可以支持文本和图像条件下的查询,从而实现多模态交互。

技术框架:该框架包含两个主要模块:(1)动态场景图生成模块:该模块利用VLMs检测场景中的对象,并推断它们之间的语义关系,无需预定义的标签集。该模块能够适应开放世界中不断变化的对象和关系。(2)检索增强推理管道:该模块将生成的场景图编码到向量数据库中,并使用文本或图像作为查询条件,从数据库中检索相关的场景信息。检索到的信息用于支持各种下游任务,如场景问答、视觉定位和任务规划。

关键创新:该论文的关键创新在于将开放词汇感知与检索增强推理相结合,从而实现了对开放世界3D场景的通用且可交互的理解。与现有方法相比,该方法不需要预定义的标签集,能够动态地生成场景图,并支持多模态查询。这种方法能够更好地适应开放世界中不断变化的对象和关系。

关键设计:论文中使用了特定的视觉-语言模型(具体模型未知)进行对象检测和关系推断。场景图的编码方式和向量数据库的选择(具体技术细节未知)是影响检索性能的关键因素。损失函数的设计(具体细节未知)需要保证场景图的有效编码和检索的准确性。此外,如何有效地融合检索到的信息以支持下游任务也是一个重要的设计考虑。

📊 实验亮点

该方法在3DSSG和Replica基准测试中,在场景问答、视觉定位、实例检索和任务规划四个任务上都取得了优异的性能。实验结果表明,该方法具有良好的泛化能力,能够在不同的环境中有效地理解3D场景。具体的性能提升数据未在摘要中给出,需要查阅论文全文。

🎯 应用场景

该研究成果可应用于机器人导航、场景理解、虚拟现实、增强现实等领域。例如,机器人可以利用该技术理解复杂环境,并根据用户的语言指令执行任务。在虚拟现实和增强现实中,该技术可以用于创建更逼真和交互性更强的场景。

📄 摘要(原文)

Understanding 3D scenes in open-world settings poses fundamental challenges for vision and robotics, particularly due to the limitations of closed-vocabulary supervision and static annotations. To address this, we propose a unified framework for Open-World 3D Scene Graph Generation with Retrieval-Augmented Reasoning, which enables generalizable and interactive 3D scene understanding. Our method integrates Vision-Language Models (VLMs) with retrieval-based reasoning to support multimodal exploration and language-guided interaction. The framework comprises two key components: (1) a dynamic scene graph generation module that detects objects and infers semantic relationships without fixed label sets, and (2) a retrieval-augmented reasoning pipeline that encodes scene graphs into a vector database to support text/image-conditioned queries. We evaluate our method on 3DSSG and Replica benchmarks across four tasks-scene question answering, visual grounding, instance retrieval, and task planning-demonstrating robust generalization and superior performance in diverse environments. Our results highlight the effectiveness of combining open-vocabulary perception with retrieval-based reasoning for scalable 3D scene understanding.