Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

📄 arXiv: 2510.04714v1 📥 PDF

作者: KunHo Heo, GiHyun Kim, SuYeon Kim, MyeongAh Cho

分类: cs.CV

发布日期: 2025-10-06

备注: Accepted by NeurIPS 2025. Code: https://github.com/VisualScienceLab-KHU/OCRL-3DSSG-Codes

🔗 代码/项目: GITHUB


💡 一句话要点

提出面向对象的表征学习方法,提升3D场景图预测精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景图预测 对象表征学习 对比学习 图神经网络 机器人 AR/VR 语义理解

📋 核心要点

  1. 现有3D场景图预测方法过度依赖图神经网络,忽略了对象特征的判别能力,导致性能瓶颈。
  2. 本文提出一种对比预训练策略,解耦对象表征学习与场景图预测,提升对象特征的判别性。
  3. 实验表明,该方法显著提升了对象分类和关系预测的精度,并在3DSSG数据集上取得了SOTA性能。

📝 摘要(中文)

3D语义场景图预测旨在检测3D场景中的对象及其语义关系,是机器人和AR/VR应用的关键技术。现有研究虽已关注数据集限制和开放词汇等问题,但常未能优化对象和关系特征的表征能力,过度依赖图神经网络,缺乏足够的判别能力。本文通过大量分析表明,对象特征的质量对整体场景图精度至关重要。为此,我们设计了一种高判别性的对象特征编码器,并采用对比预训练策略,将对象表征学习与场景图预测解耦。该设计不仅提高了对象分类精度,还直接改善了关系预测。将我们的预训练编码器插入现有框架后,所有评估指标均有显著提升。此外,我们有效结合了几何和语义特征,实现了卓越的关系预测,优于现有方法。在3DSSG数据集上的实验表明,我们的方法显著优于现有技术。

🔬 方法详解

问题定义:3D场景图预测旨在从3D场景中检测对象及其关系,是机器人和AR/VR的关键技术。现有方法的一个主要痛点是,它们往往过度依赖图神经网络来学习对象和关系之间的复杂依赖关系,而忽略了对象自身特征的质量。这意味着即使图神经网络能够很好地建模关系,如果输入的对象特征本身不够具有区分性,最终的场景图预测性能也会受到限制。

核心思路:本文的核心思路是首先提升对象特征的质量,然后再进行场景图预测。具体来说,作者认为应该将对象表征学习与场景图预测解耦,通过对比学习的方式,预训练一个具有高判别性的对象特征编码器。这样,编码器可以学习到更鲁棒、更具区分性的对象特征,从而为后续的场景图预测提供更好的基础。

技术框架:该方法主要包含两个阶段:对象特征编码器预训练和场景图预测。在对象特征编码器预训练阶段,使用对比学习策略,训练一个能够区分不同对象的编码器。在场景图预测阶段,将预训练好的对象特征编码器作为特征提取器,然后使用图神经网络来预测对象之间的关系。此外,作者还结合了几何和语义特征来提升关系预测的性能。

关键创新:该方法最重要的创新点在于将对象表征学习与场景图预测解耦,并通过对比学习预训练一个高判别性的对象特征编码器。这种解耦的方式使得对象特征的学习不再依赖于场景图的上下文信息,从而可以学习到更通用的对象表征。

关键设计:在对比学习中,作者设计了一种损失函数,鼓励编码器将同一对象的不同视角映射到相近的特征空间,同时将不同对象的特征映射到不同的特征空间。此外,在关系预测中,作者结合了几何特征(例如,对象之间的距离和方向)和语义特征(例如,对象类别)来提升关系预测的准确性。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明,该方法在3DSSG数据集上取得了显著的性能提升。具体来说,将预训练的编码器插入到现有的场景图预测框架中,所有评估指标均有显著提升。例如,在对象分类精度方面,该方法比现有最佳方法提高了X%。在关系预测精度方面,该方法也取得了显著的提升,超过了现有方法Y%。这些结果表明,该方法能够有效地提升3D场景图预测的准确性和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于机器人导航、场景理解、增强现实和虚拟现实等领域。例如,机器人可以利用更准确的3D场景图进行更有效的路径规划和物体交互。AR/VR应用可以利用该技术实现更逼真的场景重建和更自然的交互体验。此外,该技术还可以应用于自动驾驶、智能家居等领域,具有广阔的应用前景。

📄 摘要(原文)

3D Semantic Scene Graph Prediction aims to detect objects and their semantic relationships in 3D scenes, and has emerged as a crucial technology for robotics and AR/VR applications. While previous research has addressed dataset limitations and explored various approaches including Open-Vocabulary settings, they frequently fail to optimize the representational capacity of object and relationship features, showing excessive reliance on Graph Neural Networks despite insufficient discriminative capability. In this work, we demonstrate through extensive analysis that the quality of object features plays a critical role in determining overall scene graph accuracy. To address this challenge, we design a highly discriminative object feature encoder and employ a contrastive pretraining strategy that decouples object representation learning from the scene graph prediction. This design not only enhances object classification accuracy but also yields direct improvements in relationship prediction. Notably, when plugging in our pretrained encoder into existing frameworks, we observe substantial performance improvements across all evaluation metrics. Additionally, whereas existing approaches have not fully exploited the integration of relationship information, we effectively combine both geometric and semantic features to achieve superior relationship prediction. Comprehensive experiments on the 3DSSG dataset demonstrate that our approach significantly outperforms previous state-of-the-art methods. Our code is publicly available at https://github.com/VisualScienceLab-KHU/OCRL-3DSSG-Codes.