DisCo-FLoc: Using Dual-Level Visual-Geometric Contrasts to Disambiguate Depth-Aware Visual Floorplan Localization

📄 arXiv: 2601.01822v1 📥 PDF

作者: Shiyong Meng, Tao Zou, Bolei Chen, Chaoxu Mu, Jianxin Wang

分类: cs.RO, cs.CV

发布日期: 2026-01-05

备注: 7 pages, 4 figures


💡 一句话要点

提出DisCo-FLoc,利用双层视觉-几何对比消除深度感知视觉平面图定位中的歧义。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉平面图定位 深度感知 对比学习 几何约束 室内定位

📋 核心要点

  1. 现有视觉平面图定位方法易受重复结构影响,且依赖昂贵的语义标注,限制了其应用。
  2. DisCo-FLoc利用双层视觉-几何对比学习,无需语义标签即可消除深度感知视觉定位的歧义。
  3. 实验表明,DisCo-FLoc在鲁棒性和准确性上均优于现有基于语义的方法,性能显著提升。

📝 摘要(中文)

视觉平面图定位(FLoc)因其易获取、长期持久且对视觉外观变化具有鲁棒性而备受关注。现有方法巧妙地匹配几何先验或利用稀疏语义来减少FLoc的不确定性。然而,它们仍然受到极简平面图中重复结构引起的歧义性影响。此外,昂贵但有限的语义标注限制了其适用性。为了解决这些问题,我们提出了DisCo-FLoc,它利用双层视觉-几何对比来消除深度感知视觉FLoc的歧义,而无需额外的语义标签。我们的解决方案首先使用专为基于光线投射的FLoc定制的光线回归预测器,利用深度估计专业知识预测一系列FLoc候选者。此外,提出了一种具有位置级和方向级约束的新型对比学习方法,以严格匹配深度感知的视觉特征与平面图中相应的几何结构。这种匹配可以有效地消除FLoc歧义,并从FLoc候选者中选择最佳成像姿势。在两个标准视觉FLoc基准上的详尽比较研究表明,我们的方法优于最先进的基于语义的方法,在鲁棒性和准确性方面都取得了显著的改进。

🔬 方法详解

问题定义:现有视觉平面图定位方法在面对极简平面图中的重复结构时,容易产生定位歧义。此外,依赖于昂贵且有限的语义标注也限制了这些方法的适用性。因此,如何在没有语义标签的情况下,提高视觉平面图定位的准确性和鲁棒性是一个关键问题。

核心思路:DisCo-FLoc的核心思路是利用深度信息和视觉特征,通过对比学习的方式,将图像中的视觉信息与平面图中的几何结构进行匹配。通过在位置和方向两个层面上进行约束,可以有效地消除定位歧义,并选择最佳的成像姿势。

技术框架:DisCo-FLoc主要包含两个阶段:首先,使用一个光线回归预测器,基于深度估计预测一系列FLoc候选者。然后,使用一个对比学习模块,将深度感知的视觉特征与平面图中的几何结构进行匹配,从而消除歧义并选择最佳的定位结果。

关键创新:该方法的主要创新在于提出了双层视觉-几何对比学习方法,该方法在位置和方向两个层面上对视觉特征和几何结构进行约束,从而有效地消除了定位歧义。此外,该方法不需要额外的语义标签,降低了对数据的依赖性。

关键设计:光线回归预测器使用深度估计作为输入,预测一系列可能的相机位姿。对比学习模块使用位置级和方向级的损失函数,鼓励视觉特征与对应的几何结构在特征空间中更接近。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DisCo-FLoc在两个标准视觉FLoc基准上进行了评估,实验结果表明,该方法在鲁棒性和准确性方面均优于最先进的基于语义的方法。具体而言,DisCo-FLoc在定位精度上取得了显著的提升,并且在面对具有挑战性的场景时,表现出更强的鲁棒性。

🎯 应用场景

DisCo-FLoc在机器人导航、室内定位、增强现实等领域具有广泛的应用前景。它可以帮助机器人在室内环境中进行精确定位,从而实现自主导航和任务执行。此外,该方法还可以用于构建室内地图,为用户提供更准确的定位服务。未来,该方法有望应用于智能家居、智慧城市等领域。

📄 摘要(原文)

Since floorplan data is readily available, long-term persistent, and robust to changes in visual appearance, visual Floorplan Localization (FLoc) has garnered significant attention. Existing methods either ingeniously match geometric priors or utilize sparse semantics to reduce FLoc uncertainty. However, they still suffer from ambiguous FLoc caused by repetitive structures within minimalist floorplans. Moreover, expensive but limited semantic annotations restrict their applicability. To address these issues, we propose DisCo-FLoc, which utilizes dual-level visual-geometric Contrasts to Disambiguate depth-aware visual Floc, without requiring additional semantic labels. Our solution begins with a ray regression predictor tailored for ray-casting-based FLoc, predicting a series of FLoc candidates using depth estimation expertise. In addition, a novel contrastive learning method with position-level and orientation-level constraints is proposed to strictly match depth-aware visual features with the corresponding geometric structures in the floorplan. Such matches can effectively eliminate FLoc ambiguity and select the optimal imaging pose from FLoc candidates. Exhaustive comparative studies on two standard visual Floc benchmarks demonstrate that our method outperforms the state-of-the-art semantic-based method, achieving significant improvements in both robustness and accuracy.