Dual-Agent Reinforcement Learning for Adaptive and Cost-Aware Visual-Inertial Odometry

📄 arXiv: 2511.21083v1 📥 PDF

作者: Feiyang Pan, Shenghe Zheng, Chunyan Yin, Guangbin Dou

分类: cs.RO

发布日期: 2025-11-26


💡 一句话要点

提出基于双智能体强化学习的自适应、低成本视觉惯性里程计

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 视觉惯性里程计 强化学习 自主导航 资源受限平台 自适应系统

📋 核心要点

  1. 现有VIO方法在精度和计算效率之间存在权衡,优化方法精度高但计算量大,滤波方法效率高但易漂移。
  2. 提出一种基于双智能体强化学习的VIO框架,自适应地控制视觉前端的运行和信息融合,以降低计算成本。
  3. 实验表明,该方法在精度、效率和内存占用方面取得了更好的平衡,并在EuRoC MAV和TUM-VI数据集上验证了有效性。

📝 摘要(中文)

视觉惯性里程计(VIO)是实现鲁棒的自运动估计的关键组件,为机器人自主导航和增强现实的实时6自由度跟踪等基础能力提供支持。现有方法面临一个众所周知的权衡:基于滤波的方法效率高但容易漂移,而基于优化的方法虽然准确,但依赖于计算量巨大的视觉惯性捆绑调整(VIBA),难以在资源受限的平台上运行。本文旨在减少VIBA的调用频率和强度,而不是完全移除它。为此,我们将现代VIO中的两个关键设计选择(何时运行视觉前端以及对它的输出信任度)转化为序列决策问题,并使用轻量级强化学习(RL)智能体解决它们。本文框架引入了一种轻量级的双管齐下的RL策略,作为核心贡献:(1)一个选择智能体,仅基于高频IMU数据智能地控制整个VO流程;(2)一个复合融合智能体,首先通过监督网络估计一个鲁棒的速度状态,然后通过RL策略自适应地融合完整的(p, v, q)状态。在EuRoC MAV和TUM-VI数据集上的实验表明,在统一评估中,该方法比之前的基于GPU的VO/VIO系统实现了更有利的精度-效率-内存权衡:在运行速度提高1.77倍并使用更少GPU内存的同时,获得了最佳的平均ATE。与经典的基于优化的VIO系统相比,该方法在保持有竞争力的轨迹精度的同时,显著降低了计算负载。

🔬 方法详解

问题定义:现有VIO方法需要在精度和计算效率之间进行权衡。基于优化的方法,如VIBA,虽然能提供高精度的位姿估计,但计算复杂度高,难以在资源受限的移动平台上实时运行。基于滤波的方法虽然计算效率高,但精度相对较低,容易产生漂移。因此,如何在保证精度的前提下,降低VIO的计算成本,是本文要解决的核心问题。

核心思路:本文的核心思路是将VIO中的两个关键决策过程,即“何时运行视觉前端”和“如何融合视觉和惯性信息”,建模为序列决策问题,并利用强化学习(RL)来学习最优策略。通过智能地控制视觉前端的运行频率和自适应地融合视觉和惯性信息,可以在保证精度的前提下,显著降低计算成本。

技术框架:该VIO框架包含两个主要的RL智能体:选择智能体(Select Agent)和融合智能体(Fusion Agent)。选择智能体基于高频IMU数据,决定是否运行视觉前端。融合智能体首先通过一个监督网络估计鲁棒的速度状态,然后使用RL策略自适应地融合视觉信息和惯性信息,得到最终的位姿估计。整个框架可以看作是一个自适应的VIO系统,能够根据环境和自身状态动态调整计算资源的使用。

关键创新:该方法最重要的创新点在于将VIO中的决策过程建模为序列决策问题,并利用强化学习来学习最优策略。与传统的VIO方法相比,该方法能够更加智能地控制计算资源的分配,从而在精度和效率之间取得更好的平衡。双智能体的设计也是一个创新,选择智能体负责控制视觉前端的运行,融合智能体负责信息融合,两个智能体协同工作,共同优化VIO的性能。

关键设计:选择智能体的输入是高频IMU数据,输出是是否运行视觉前端的决策。融合智能体包含一个监督网络和一个RL策略。监督网络用于估计鲁棒的速度状态,RL策略用于自适应地融合视觉信息和惯性信息。损失函数的设计需要考虑精度和计算成本,奖励函数的设计需要鼓励智能体在保证精度的前提下,尽可能地减少计算量。具体的网络结构和参数设置需要根据实际应用场景进行调整。

📊 实验亮点

实验结果表明,该方法在EuRoC MAV和TUM-VI数据集上取得了显著的性能提升。与之前的基于GPU的VO/VIO系统相比,该方法在运行速度提高1.77倍并使用更少GPU内存的同时,获得了最佳的平均ATE。与经典的基于优化的VIO系统相比,该方法在保持有竞争力的轨迹精度的同时,显著降低了计算负载。

🎯 应用场景

该研究成果可应用于机器人自主导航、增强现实、无人机等领域。通过降低VIO的计算成本,可以使这些应用在资源受限的移动平台上运行,从而扩展其应用范围。此外,自适应的VIO系统能够根据环境和自身状态动态调整计算资源的使用,从而提高系统的鲁棒性和可靠性。

📄 摘要(原文)

Visual-Inertial Odometry (VIO) is a critical component for robust ego-motion estimation, enabling foundational capabilities such as autonomous navigation in robotics and real-time 6-DoF tracking for augmented reality. Existing methods face a well-known trade-off: filter-based approaches are efficient but prone to drift, while optimization-based methods, though accurate, rely on computationally prohibitive Visual-Inertial Bundle Adjustment (VIBA) that is difficult to run on resource-constrained platforms. Rather than removing VIBA altogether, we aim to reduce how often and how heavily it must be invoked. To this end, we cast two key design choices in modern VIO, when to run the visual frontend and how strongly to trust its output, as sequential decision problems, and solve them with lightweight reinforcement learning (RL) agents. Our framework introduces a lightweight, dual-pronged RL policy that serves as our core contribution: (1) a Select Agent intelligently gates the entire VO pipeline based only on high-frequency IMU data; and (2) a composite Fusion Agent that first estimates a robust velocity state via a supervised network, before an RL policy adaptively fuses the full (p, v, q) state. Experiments on the EuRoC MAV and TUM-VI datasets show that, in our unified evaluation, the proposed method achieves a more favorable accuracy-efficiency-memory trade-off than prior GPU-based VO/VIO systems: it attains the best average ATE while running up to 1.77 times faster and using less GPU memory. Compared to classical optimization-based VIO systems, our approach maintains competitive trajectory accuracy while substantially reducing computational load.