Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search
作者: Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada
分类: cs.RO, cs.AI
发布日期: 2026-03-05
💡 一句话要点
提出SCOUT,利用场景图关系推理实现开放世界交互式物体搜索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 场景图 关系推理 交互式物体搜索 开放世界 蒸馏学习 机器人 语义理解
📋 核心要点
- 现有方法依赖视觉-语言嵌入相似性或大型语言模型(LLM),前者无法可靠捕捉任务相关的关系语义,后者计算成本过高。
- SCOUT利用场景图,通过学习房间-物体包含、物体-物体共现等关系,为房间、边界和物体赋予效用评分,指导高效探索。
- 离线蒸馏LLM知识到轻量模型,实现开放词汇泛化和实时推理。实验表明SCOUT性能优于现有方法,并成功迁移到真实环境。
📝 摘要(中文)
本文提出SCOUT:一种基于场景图和学习效用的开放世界交互式物体搜索方法。该方法通过评估房间、边界和物体的效用评分,在3D场景图上直接搜索,利用房间-物体包含关系和物体-物体共现等关系探索启发式信息。为了在不牺牲开放词汇泛化能力的前提下实现实用性,本文提出了一个离线程序化蒸馏框架,将LLM中的结构化关系知识提取到轻量级模型中,用于机器人上的实时推理。此外,本文提出了SymSearch,一个可扩展的符号基准,用于评估交互式物体搜索任务中的语义推理。在符号和模拟环境中的大量评估表明,SCOUT优于基于嵌入相似性的方法,并在计算效率方面与LLM水平的性能相匹配。最后,真实世界的实验证明了其在物理环境中的有效迁移,实现了在真实感知和导航约束下的开放世界交互式物体搜索。
🔬 方法详解
问题定义:开放世界交互式物体搜索任务需要智能体在未知的环境中,根据给定的目标描述,通过与环境交互来定位目标物体。现有方法主要存在两个痛点:一是依赖视觉-语言嵌入相似度,无法准确捕捉物体间的关系语义;二是直接使用大型语言模型(LLM),计算成本高昂,难以实时部署。
核心思路:本文的核心思路是利用场景图来表示环境,并学习场景图中节点(房间、物体等)之间的关系,从而指导智能体进行高效的探索。通过学习到的关系,智能体可以预测哪些房间可能包含目标物体,哪些物体可能与目标物体共现,从而缩小搜索范围,提高搜索效率。这种方法避免了直接依赖视觉-语言嵌入或LLM,降低了计算成本。
技术框架:SCOUT的整体框架包含以下几个主要模块:1) 场景图构建:利用传感器数据构建3D场景图,节点表示房间、物体等,边表示它们之间的关系。2) 关系推理:利用学习到的关系模型,对场景图中的节点进行效用评分,评分越高表示该节点包含目标物体的可能性越大。3) 探索策略:根据节点的效用评分,智能体选择下一步要探索的房间或物体。4) 离线蒸馏:为了提高效率和泛化能力,采用离线程序化蒸馏框架,将LLM中的关系知识提取到轻量级模型中。
关键创新:本文最重要的技术创新点在于提出了基于场景图关系推理的探索策略。与现有方法相比,SCOUT能够更有效地利用环境中的关系信息,从而提高搜索效率。此外,离线程序化蒸馏框架也是一个重要的创新,它使得SCOUT能够在保持开放词汇泛化能力的同时,实现实时推理。
关键设计:在关系推理模块中,使用了图神经网络(GNN)来学习节点之间的关系。GNN的输入是节点的特征向量和边上的关系类型,输出是节点的效用评分。损失函数的设计考虑了房间-物体包含关系和物体-物体共现关系。在离线蒸馏框架中,使用了LLM生成大量的训练数据,然后训练一个轻量级的模型来拟合LLM的输出。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
SCOUT在符号和模拟环境中均取得了显著的性能提升。在符号环境中,SCOUT优于基于嵌入相似性的方法。在模拟环境中,SCOUT的性能与LLM相当,但计算效率更高。真实世界的实验也证明了SCOUT在物理环境中的有效迁移,能够在真实的感知和导航约束下完成开放世界交互式物体搜索任务。具体性能数据未知。
🎯 应用场景
该研究成果可应用于家庭服务机器人、智能家居、仓储物流等领域。例如,家庭服务机器人可以利用该技术在复杂的家庭环境中快速找到用户需要的物品。智能家居系统可以利用该技术进行物品管理和智能推荐。仓储物流系统可以利用该技术提高拣货效率和库存管理水平。未来,该技术有望进一步扩展到更广泛的场景,例如灾难救援、医疗辅助等。
📄 摘要(原文)
Open-world interactive object search in household environments requires understanding semantic relationships between objects and their surrounding context to guide exploration efficiently. Prior methods either rely on vision-language embeddings similarity, which does not reliably capture task-relevant relational semantics, or large language models (LLMs), which are too slow and costly for real-time deployment. We introduce SCOUT: Scene Graph-Based Exploration with Learned Utility for Open-World Interactive Object Search, a novel method that searches directly over 3D scene graphs by assigning utility scores to rooms, frontiers, and objects using relational exploration heuristics such as room-object containment and object-object co-occurrence. To make this practical without sacrificing open-vocabulary generalization, we propose an offline procedural distillation framework that extracts structured relational knowledge from LLMs into lightweight models for on-robot inference. Furthermore, we present SymSearch, a scalable symbolic benchmark for evaluating semantic reasoning in interactive object search tasks. Extensive evaluations across symbolic and simulation environments show that SCOUT outperforms embedding similarity-based methods and matches LLM-level performance while remaining computationally efficient. Finally, real-world experiments demonstrate effective transfer to physical environments, enabling open-world interactive object search under realistic sensing and navigation constraints.