LOST-3DSG: Lightweight Open-Vocabulary 3D Scene Graphs with Semantic Tracking in Dynamic Environments

作者: Sara Micol Ferraina, Michele Brienza, Francesco Argenziano, Emanuele Musumeci, Vincenzo Suriani, Domenico D. Bloisi, Daniele Nardi

分类: cs.RO, cs.AI

发布日期: 2026-01-06

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LOST-3DSG：轻量级开放词汇3D场景图，用于动态环境中语义跟踪

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D场景图 动态环境 物体跟踪 语义嵌入 开放词汇 机器人 轻量级

📋 核心要点

动态环境中物体跟踪是机器人领域的核心挑战，现有方法依赖大型基础模型，效率较低。
LOST-3DSG利用word2vec和句子嵌入进行语义跟踪，避免存储高维视觉特征，实现轻量级开放词汇表示。
实验表明，LOST-3DSG在真实3D环境中，相较于依赖高维视觉嵌入的方法，性能更优，效率更高。

📝 摘要（中文）

本文提出LOST-3DSG，一种轻量级的开放词汇3D场景图，旨在跟踪真实动态环境中的移动物体。现有方法通常依赖于计算量大的基础模型，效率较低。LOST-3DSG采用基于word2vec和句子嵌入的语义方法进行实体跟踪，实现了开放词汇表示，避免了存储密集的CLIP视觉特征。实验结果表明，与依赖高维视觉嵌入的方法相比，LOST-3DSG表现出更优越的性能。通过在真实3D环境中使用TIAGo机器人进行的定性和定量实验，验证了LOST-3DSG在动态物体跟踪方面的有效性和效率。代码和补充材料已在项目网站上公开。

🔬 方法详解

问题定义：论文旨在解决动态环境中高效、准确地跟踪移动物体的问题。现有方法，特别是那些依赖于大型视觉基础模型（如CLIP）的方法，由于需要存储和处理高维视觉特征，计算成本高昂，难以在资源受限的机器人平台上实时部署。

核心思路：LOST-3DSG的核心思路是利用语义信息进行物体跟踪，而不是直接依赖视觉特征。通过将物体名称映射到语义嵌入空间（word2vec和句子嵌入），可以实现开放词汇的物体表示，并利用语义相似度进行物体匹配和跟踪，从而避免了存储和处理高维视觉特征的需要。

技术框架：LOST-3DSG的整体框架包括以下几个主要模块：1) 场景感知模块：负责从传感器数据（如RGB-D相机）中提取3D场景信息，并检测场景中的物体。2) 语义嵌入模块：将检测到的物体的名称映射到语义嵌入空间，生成语义表示。3) 跟踪模块：利用语义相似度度量，将当前帧的物体与上一帧的物体进行匹配，实现物体跟踪。4) 场景图构建模块：将跟踪结果整合到3D场景图中，形成对动态环境的结构化表示。

关键创新：LOST-3DSG的关键创新在于其轻量级的开放词汇物体表示方法。与依赖高维视觉特征的方法不同，LOST-3DSG利用语义嵌入进行物体跟踪，显著降低了计算复杂度和存储需求，同时实现了对未见过的物体的跟踪能力。

关键设计：LOST-3DSG的关键设计包括：1) 使用预训练的word2vec模型和句子嵌入模型，以获得物体的语义表示。2) 使用余弦相似度作为语义相似度度量，用于物体匹配。3) 设计了一种基于卡尔曼滤波器的跟踪算法，用于平滑物体轨迹并预测物体位置。4) 采用了一种动态场景图结构，用于存储和更新场景信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LOST-3DSG在真实3D环境中实现了高效的动态物体跟踪。与依赖高维视觉嵌入的方法相比，LOST-3DSG在跟踪精度和计算效率方面均有显著提升。具体性能数据（例如跟踪精度、运行时间等）可在论文原文中找到。

🎯 应用场景

LOST-3DSG适用于需要在动态环境中进行物体跟踪的机器人应用，例如自主导航、物体操作、人机交互等。该方法可以帮助机器人在复杂环境中更好地理解和交互，提高机器人的自主性和适应性。未来，该研究可以扩展到更复杂的场景和任务，例如多机器人协作、增强现实等。

📄 摘要（原文）

Tracking objects that move within dynamic environments is a core challenge in robotics. Recent research has advanced this topic significantly; however, many existing approaches remain inefficient due to their reliance on heavy foundation models. To address this limitation, we propose LOST-3DSG, a lightweight open-vocabulary 3D scene graph designed to track dynamic objects in real-world environments. Our method adopts a semantic approach to entity tracking based on word2vec and sentence embeddings, enabling an open-vocabulary representation while avoiding the necessity of storing dense CLIP visual features. As a result, LOST-3DSG achieves superior performance compared to approaches that rely on high-dimensional visual embeddings. We evaluate our method through qualitative and quantitative experiments conducted in a real 3D environment using a TIAGo robot. The results demonstrate the effectiveness and efficiency of LOST-3DSG in dynamic object tracking. Code and supplementary material are publicly available on the project website at https://lab-rococo-sapienza.github.io/lost-3dsg/.

LOST-3DSG: Lightweight Open-Vocabulary 3D Scene Graphs with Semantic Tracking in Dynamic Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册