360DVO: Deep Visual Odometry for Monocular 360-Degree Camera

📄 arXiv: 2601.02309v1 📥 PDF

作者: Xiaopeng Guo, Yinzhe Xu, Huajian Huang, Sai-Kit Yeung

分类: cs.CV

发布日期: 2026-01-05

备注: 12 pages. Received by RA-L

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出360DVO,一种基于深度学习的单目全景相机视觉里程计框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 全景视觉里程计 深度学习 特征提取 位姿估计 Bundle Adjustment 单目相机 机器人导航

📋 核心要点

  1. 现有全景视觉里程计方法依赖手工特征或光度目标,在剧烈运动和光照变化等场景下鲁棒性不足。
  2. 360DVO通过引入扭曲感知球面特征提取器(DAS-Feat)和全景可微Bundle Adjustment (ODBA)模块来提升鲁棒性。
  3. 实验结果表明,360DVO在鲁棒性和精度上均优于现有方法,并在真实世界数据集上进行了验证。

📝 摘要(中文)

本文提出360DVO,一种基于深度学习的全景视觉里程计(OVO)框架,旨在克服传统方法在剧烈运动和光照变化等挑战性场景下的鲁棒性不足问题。该方法引入了扭曲感知球面特征提取器(DAS-Feat),自适应地学习对全景图像扭曲具有鲁棒性的特征。这些稀疏特征块被用于建立约束,并在新的全景可微Bundle Adjustment (ODBA)模块中进行有效的位姿估计。为了促进在真实场景下的评估,本文还贡献了一个新的真实世界OVO基准。在基准测试和公共合成数据集(TartanAir V2和360VO)上的大量实验表明,360DVO超越了最先进的基线方法(包括360VO和OpenVSLAM),鲁棒性提高了50%,精度提高了37.5%。

🔬 方法详解

问题定义:现有单目全景视觉里程计方法在面对剧烈运动、光照变化等复杂场景时,由于依赖手工设计的特征或光度一致性假设,鲁棒性较差,容易出现跟踪失败或精度下降的问题。因此,需要一种更具适应性和鲁棒性的特征提取和位姿估计方法。

核心思路:360DVO的核心思路是利用深度学习方法,从全景图像中自适应地学习对图像扭曲具有鲁棒性的特征表示,并结合可微的Bundle Adjustment优化框架,实现更精确和稳定的位姿估计。通过端到端的学习,模型能够更好地适应各种复杂场景,提高视觉里程计的整体性能。

技术框架:360DVO框架主要包含两个核心模块:扭曲感知球面特征提取器(DAS-Feat)和全景可微Bundle Adjustment (ODBA)。首先,DAS-Feat模块从全景图像中提取稀疏特征点,这些特征点对图像的扭曲具有一定的鲁棒性。然后,ODBA模块利用这些特征点建立约束,通过可微的Bundle Adjustment优化过程,估计相机的位姿和特征点的位置。整个框架可以进行端到端的训练和优化。

关键创新:360DVO的关键创新在于提出了扭曲感知球面特征提取器(DAS-Feat)和全景可微Bundle Adjustment (ODBA)模块。DAS-Feat能够自适应地学习对全景图像扭曲具有鲁棒性的特征,而ODBA则允许在全景图像下进行可微的Bundle Adjustment优化,从而实现更精确的位姿估计。与传统方法相比,360DVO能够更好地适应全景图像的特殊性质,提高视觉里程计的鲁棒性和精度。

关键设计:DAS-Feat模块的网络结构未知,但其目标是提取对全景图像扭曲不敏感的特征。ODBA模块的关键在于实现Bundle Adjustment过程的可微性,以便能够通过反向传播优化整个网络。损失函数的设计可能包括重投影误差等。具体的网络结构、损失函数和优化算法等细节在论文中可能有所描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,360DVO在真实世界和合成数据集上均取得了显著的性能提升。在鲁棒性方面,360DVO相比现有方法提高了50%,这意味着在更复杂的场景下,360DVO能够更稳定地工作。在精度方面,360DVO的精度提高了37.5%,能够提供更准确的位姿估计结果。这些结果表明,360DVO是一种有效的全景视觉里程计方法。

🎯 应用场景

360DVO具有广泛的应用前景,例如可应用于扫地机器人、无人机、VR/AR等领域,为这些设备提供更精确和稳定的定位和导航能力。尤其是在需要大范围视野和复杂运动的场景下,360DVO的优势更加明显。该研究的进展将推动全景视觉里程计技术的发展,并促进相关应用的普及。

📄 摘要(原文)

Monocular omnidirectional visual odometry (OVO) systems leverage 360-degree cameras to overcome field-of-view limitations of perspective VO systems. However, existing methods, reliant on handcrafted features or photometric objectives, often lack robustness in challenging scenarios, such as aggressive motion and varying illumination. To address this, we present 360DVO, the first deep learning-based OVO framework. Our approach introduces a distortion-aware spherical feature extractor (DAS-Feat) that adaptively learns distortion-resistant features from 360-degree images. These sparse feature patches are then used to establish constraints for effective pose estimation within a novel omnidirectional differentiable bundle adjustment (ODBA) module. To facilitate evaluation in realistic settings, we also contribute a new real-world OVO benchmark. Extensive experiments on this benchmark and public synthetic datasets (TartanAir V2 and 360VO) demonstrate that 360DVO surpasses state-of-the-art baselines (including 360VO and OpenVSLAM), improving robustness by 50% and accuracy by 37.5%. Homepage: https://chris1004336379.github.io/360DVO-homepage