LOST-3DSG: Lightweight Open-Vocabulary 3D Scene Graphs with Semantic Tracking in Dynamic Environments

📄 arXiv: 2601.02905v1 📥 PDF

作者: Sara Micol Ferraina, Michele Brienza, Francesco Argenziano, Emanuele Musumeci, Vincenzo Suriani, Domenico D. Bloisi, Daniele Nardi

分类: cs.RO, cs.AI

发布日期: 2026-01-06

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

LOST-3DSG:轻量级开放词汇3D场景图,用于动态环境中语义跟踪

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景图 动态环境 物体跟踪 语义嵌入 开放词汇 机器人 轻量级

📋 核心要点

  1. 动态环境中物体跟踪是机器人领域的核心挑战,现有方法依赖大型基础模型,效率较低。
  2. LOST-3DSG利用word2vec和句子嵌入进行语义跟踪,避免存储高维视觉特征,实现轻量级开放词汇表示。
  3. 实验表明,LOST-3DSG在真实3D环境中,相较于依赖高维视觉嵌入的方法,性能更优,效率更高。

📝 摘要(中文)

本文提出LOST-3DSG,一种轻量级的开放词汇3D场景图,旨在跟踪真实动态环境中的移动物体。现有方法通常依赖于计算量大的基础模型,效率较低。LOST-3DSG采用基于word2vec和句子嵌入的语义方法进行实体跟踪,实现了开放词汇表示,避免了存储密集的CLIP视觉特征。实验结果表明,与依赖高维视觉嵌入的方法相比,LOST-3DSG表现出更优越的性能。通过在真实3D环境中使用TIAGo机器人进行的定性和定量实验,验证了LOST-3DSG在动态物体跟踪方面的有效性和效率。代码和补充材料已在项目网站上公开。

🔬 方法详解

问题定义:论文旨在解决动态环境中高效、准确地跟踪移动物体的问题。现有方法,特别是那些依赖于大型视觉基础模型(如CLIP)的方法,由于需要存储和处理高维视觉特征,计算成本高昂,难以在资源受限的机器人平台上实时部署。

核心思路:LOST-3DSG的核心思路是利用语义信息进行物体跟踪,而不是直接依赖视觉特征。通过将物体名称映射到语义嵌入空间(word2vec和句子嵌入),可以实现开放词汇的物体表示,并利用语义相似度进行物体匹配和跟踪,从而避免了存储和处理高维视觉特征的需要。

技术框架:LOST-3DSG的整体框架包括以下几个主要模块:1) 场景感知模块:负责从传感器数据(如RGB-D相机)中提取3D场景信息,并检测场景中的物体。2) 语义嵌入模块:将检测到的物体的名称映射到语义嵌入空间,生成语义表示。3) 跟踪模块:利用语义相似度度量,将当前帧的物体与上一帧的物体进行匹配,实现物体跟踪。4) 场景图构建模块:将跟踪结果整合到3D场景图中,形成对动态环境的结构化表示。

关键创新:LOST-3DSG的关键创新在于其轻量级的开放词汇物体表示方法。与依赖高维视觉特征的方法不同,LOST-3DSG利用语义嵌入进行物体跟踪,显著降低了计算复杂度和存储需求,同时实现了对未见过的物体的跟踪能力。

关键设计:LOST-3DSG的关键设计包括:1) 使用预训练的word2vec模型和句子嵌入模型,以获得物体的语义表示。2) 使用余弦相似度作为语义相似度度量,用于物体匹配。3) 设计了一种基于卡尔曼滤波器的跟踪算法,用于平滑物体轨迹并预测物体位置。4) 采用了一种动态场景图结构,用于存储和更新场景信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LOST-3DSG在真实3D环境中实现了高效的动态物体跟踪。与依赖高维视觉嵌入的方法相比,LOST-3DSG在跟踪精度和计算效率方面均有显著提升。具体性能数据(例如跟踪精度、运行时间等)可在论文原文中找到。

🎯 应用场景

LOST-3DSG适用于需要在动态环境中进行物体跟踪的机器人应用,例如自主导航、物体操作、人机交互等。该方法可以帮助机器人在复杂环境中更好地理解和交互,提高机器人的自主性和适应性。未来,该研究可以扩展到更复杂的场景和任务,例如多机器人协作、增强现实等。

📄 摘要(原文)

Tracking objects that move within dynamic environments is a core challenge in robotics. Recent research has advanced this topic significantly; however, many existing approaches remain inefficient due to their reliance on heavy foundation models. To address this limitation, we propose LOST-3DSG, a lightweight open-vocabulary 3D scene graph designed to track dynamic objects in real-world environments. Our method adopts a semantic approach to entity tracking based on word2vec and sentence embeddings, enabling an open-vocabulary representation while avoiding the necessity of storing dense CLIP visual features. As a result, LOST-3DSG achieves superior performance compared to approaches that rely on high-dimensional visual embeddings. We evaluate our method through qualitative and quantitative experiments conducted in a real 3D environment using a TIAGo robot. The results demonstrate the effectiveness and efficiency of LOST-3DSG in dynamic object tracking. Code and supplementary material are publicly available on the project website at https://lab-rococo-sapienza.github.io/lost-3dsg/.