SSMG-Nav: Enhancing Lifelong Object Navigation with Semantic Skeleton Memory Graph
作者: Haochen Niu, Lantao Zhang, Xingwu Ji, Rendong Ying, Peilin Liu, Fei Wen
分类: cs.RO
发布日期: 2026-03-02
备注: Accepted by 2026 ICRA
💡 一句话要点
提出SSMG-Nav,利用语义骨架记忆图增强终身物体导航能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 物体导航 终身学习 语义记忆 视觉语言模型 长程规划
📋 核心要点
- 现有物体导航方法缺乏可复用的持久记忆,限制了其在终身学习场景下的性能,且大多仅依赖单模态输入。
- SSMG-Nav构建语义骨架记忆图,整合历史观测,并利用视觉-语言模型处理多模态目标,实现高效导航。
- 实验表明,SSMG-Nav在终身和标准物体导航基准测试中,均显著提升了成功率和路径效率,验证了其有效性。
📝 摘要(中文)
本文提出SSMG-Nav,一个基于语义骨架记忆图(SSMG)的物体导航框架,旨在提升服务机器人在陌生环境中根据人类指令导航至视野外目标的能力。SSMG将历史观测结果整合为空间对齐的持久记忆,并以拓扑关键点(如交叉口、房间中心)为锚点。SSMG将附近实体聚类成子图,统一实体和空间层面的语义,从而产生一组紧凑的候选目的地。为了支持多模态目标(图像、物体和文本),集成了视觉-语言模型(VLM)。对于每个子图,利用从记忆中合成的多模态提示引导VLM推断目标置信度。然后,长程规划器权衡该置信度和可遍历性成本,生成访问序列,从而最小化预期路径长度,减少回溯。在具有挑战性的终身基准和标准ObjectNav基准上的大量实验表明,与强大的基线相比,该方法实现了更高的成功率和更高的路径效率,验证了SSMG-Nav的有效性。
🔬 方法详解
问题定义:现有物体导航方法在终身学习场景中面临挑战,主要痛点在于缺乏有效的长期记忆机制,无法充分利用历史经验。此外,许多方法仅支持单模态输入,且采用短视的贪婪策略,容易导致低效的回溯行为。因此,需要一种能够整合多模态信息、具备长期记忆能力并能进行长程规划的导航方法。
核心思路:SSMG-Nav的核心思路是构建一个语义骨架记忆图(SSMG),作为机器人的长期记忆。SSMG以拓扑关键点为锚点,整合历史观测信息,并利用子图结构对环境进行语义聚类。通过结合视觉-语言模型(VLM)和长程规划器,SSMG-Nav能够处理多模态目标,并生成高效的导航路径,从而减少回溯。
技术框架:SSMG-Nav的整体框架包含以下几个主要模块:1) 语义骨架记忆图(SSMG)构建:将历史观测结果整合为空间对齐的持久记忆,以拓扑关键点(如交叉口、房间中心)为锚点。2) 子图聚类:将附近的实体聚类成子图,统一实体和空间层面的语义。3) 多模态目标处理:集成视觉-语言模型(VLM),利用从记忆中合成的多模态提示引导VLM推断目标置信度。4) 长程规划:权衡目标置信度和可遍历性成本,生成访问序列,从而最小化预期路径长度。
关键创新:SSMG-Nav的关键创新在于提出了语义骨架记忆图(SSMG),它是一种空间对齐的持久记忆结构,能够有效地整合历史观测信息,并支持多模态目标的处理。与传统的基于地图的导航方法相比,SSMG更加紧凑和高效,能够更好地适应终身学习场景。此外,SSMG-Nav还结合了视觉-语言模型和长程规划器,从而实现了更智能和高效的导航。
关键设计:SSMG的构建依赖于对环境的拓扑结构进行建模,关键点的选择和子图的聚类算法对最终的导航性能有重要影响。VLM的使用需要仔细设计多模态提示,以确保其能够准确地推断目标置信度。长程规划器需要权衡目标置信度和可遍历性成本,以生成最优的访问序列。具体的参数设置和损失函数需要根据实际场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SSMG-Nav在终身物体导航基准测试中,相比于现有方法,成功率提升了显著百分比(具体数值未知),路径效率也得到了显著提高。在标准ObjectNav基准测试中,SSMG-Nav也取得了具有竞争力的结果,验证了其在不同场景下的有效性。这些结果表明,SSMG-Nav是一种有前景的终身物体导航方法。
🎯 应用场景
SSMG-Nav具有广泛的应用前景,可应用于家庭服务机器人、仓储物流机器人、安防巡逻机器人等领域。该方法能够使机器人在复杂环境中自主导航至指定目标,完成各种任务,例如送餐、取物、巡逻等。通过不断学习和积累经验,机器人能够更好地适应环境变化,提高工作效率和服务质量。
📄 摘要(原文)
Navigating to out-of-sight targets from human instructions in unfamiliar environments is a core capability for service robots. Despite substantial progress, most approaches underutilize reusable, persistent memory, constraining performance in lifelong settings. Many are additionally limited to single-modality inputs and employ myopic greedy policies, which often induce inefficient back-and-forth maneuvers (BFMs). To address such limitations, we introduce SSMG-Nav, a framework for object navigation built on a \textit{Semantic Skeleton Memory Graph} (SSMG) that consolidates past observations into a spatially aligned, persistent memory anchored by topological keypoints (e.g., junctions, room centers). SSMG clusters nearby entities into subgraphs, unifying entity- and space-level semantics to yield a compact set of candidate destinations. To support multimodal targets (images, objects, and text), we integrate a vision-language model (VLM). For each subgraph, a multimodal prompt synthesized from memory guides the VLM to infer a target belief over destinations. A long-horizon planner then trades off this belief against traversability costs to produce a visit sequence that minimizes expected path length, thereby reducing backtracking. Extensive experiments on challenging lifelong benchmarks and standard ObjectNav benchmarks demonstrate that, compared to strong baselines, our method achieves higher success rates and greater path efficiency, validating the effectiveness of SSMG-Nav.