EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
作者: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee
分类: cs.CV
发布日期: 2026-03-04
备注: CVPR 2026, Project Page: https://0nandon.github.io/EmbodiedSplat/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出EmbodiedSplat,用于在线开放词汇3D场景理解的feed-forward语义3DGS方法。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景理解 具身智能 开放词汇 3D高斯溅射 CLIP模型 在线重建 语义SLAM
📋 核心要点
- 现有开放词汇3D场景理解方法通常受限于离线或单场景优化,无法满足具身任务对实时性和泛化性的需求。
- EmbodiedSplat通过在线稀疏系数场和CLIP全局码本,将2D CLIP嵌入与3D高斯关联,实现高效的语义信息存储和泛化。
- 实验表明,EmbodiedSplat在ScanNet等数据集上表现出良好的重建和语义理解能力,验证了其有效性和效率。
📝 摘要(中文)
本文提出EmbodiedSplat,一种在线feed-forward 3DGS方法,用于开放词汇场景理解,能够从流式图像中同时进行在线3D重建和3D语义理解,这对于具身任务至关重要。与现有的开放词汇3DGS方法通常局限于离线或单场景优化设置不同,我们的目标是:1) 在线重建整个场景的语义嵌入3DGS,使用超过300张流式图像。2) 通过feed-forward设计高度泛化到新场景,并结合实时2D模型支持近乎实时的3D语义重建。为此,我们提出了一种在线稀疏系数场与CLIP全局码本,它将2D CLIP嵌入绑定到每个3D高斯,同时最大限度地减少内存消耗并保持CLIP的完整语义泛化能力。此外,我们通过3D U-Net聚合3DGS的部分点云,生成3D几何感知CLIP特征,以补偿3D几何先验到2D导向的语言嵌入。在包括ScanNet、ScanNet++和Replica在内的各种室内数据集上的大量实验证明了我们方法的有效性和效率。
🔬 方法详解
问题定义:现有方法在开放词汇3D场景理解中,通常需要离线优化或针对特定场景进行训练,无法满足具身智能体对实时性和泛化性的需求。痛点在于无法在探索环境的同时,快速构建并理解3D场景的语义信息。
核心思路:EmbodiedSplat的核心思路是在线构建一个语义嵌入的3D高斯场景表示(3DGS),并利用CLIP模型的强大语义泛化能力,将2D图像的语义信息迁移到3D场景中。通过feed-forward的设计,避免了耗时的优化过程,从而实现近乎实时的3D语义重建。
技术框架:EmbodiedSplat的整体框架包括:1) 从流式图像中提取2D CLIP嵌入;2) 利用在线稀疏系数场和CLIP全局码本,将2D CLIP嵌入与3D高斯关联;3) 通过3D U-Net聚合3DGS的部分点云,生成3D几何感知CLIP特征;4) 利用生成的3DGS进行场景重建和语义理解。
关键创新:EmbodiedSplat的关键创新在于:1) 提出了一种在线稀疏系数场与CLIP全局码本,有效降低了内存消耗,同时保持了CLIP的语义泛化能力;2) 通过3D U-Net聚合3DGS的部分点云,生成3D几何感知CLIP特征,弥补了2D语言嵌入缺乏3D几何信息的不足。
关键设计:在线稀疏系数场通过稀疏编码的方式,将每个3D高斯与CLIP全局码本中的少量码字关联,从而降低了存储成本。3D U-Net的网络结构和损失函数的设计,旨在有效地融合3D几何信息和2D语义信息。具体的参数设置和训练策略在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
EmbodiedSplat在ScanNet、ScanNet++和Replica等数据集上进行了广泛的实验,结果表明该方法在3D场景重建和语义理解方面都取得了显著的成果。与现有方法相比,EmbodiedSplat在保持较高精度的同时,实现了近乎实时的性能,并且具有更强的泛化能力。
🎯 应用场景
EmbodiedSplat在机器人导航、场景理解、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人在未知环境中快速构建语义地图,从而实现更智能的导航和交互。此外,该方法还可以用于创建更逼真的虚拟现实和增强现实体验,例如,允许用户在虚拟环境中与具有语义信息的物体进行交互。
📄 摘要(原文)
Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.