Policies over Poses: Reinforcement Learning based Distributed Pose-Graph Optimization for Multi-Robot SLAM

📄 arXiv: 2510.22740v1 📥 PDF

作者: Sai Krishna Ghanta, Ramviyas Parasuraman

分类: cs.RO, cs.AI, cs.MA

发布日期: 2025-10-26

备注: IEEE International Symposium on Multi-Robot & Multi-Agent Systems (MRS) 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于强化学习的分布式位姿图优化方法,用于多机器人SLAM。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多机器人SLAM 位姿图优化 分布式优化 强化学习 图神经网络

📋 核心要点

  1. 传统分布式位姿图优化方法易陷入局部最优,且计算效率较低,难以满足大规模多机器人SLAM的需求。
  2. 提出基于多智能体强化学习的分布式位姿图优化框架,通过学习策略优化局部位姿估计,并使用共识方案保证全局一致性。
  3. 实验结果表明,该方法在全局目标优化和推理效率方面均优于现有方法,并具有良好的可扩展性。

📝 摘要(中文)

本文研究了分布式位姿图优化(PGO)问题,该问题对于多机器人同步定位与地图构建(SLAM)中精确的轨迹估计至关重要。传统的迭代方法线性化了一个高度非凸的优化目标,需要重复求解正规方程,这通常会收敛到局部最小值,从而产生次优估计。我们提出了一种可扩展的、对异常值鲁棒的分布式平面PGO框架,该框架使用多智能体强化学习(MARL)。我们将分布式PGO建模为一个在局部位姿图上定义的部分可观察马尔可夫博弈,其中每个动作细化单个边的位姿估计。图划分器分解全局位姿图,每个机器人运行一个循环边条件图神经网络(GNN)编码器,该编码器具有自适应边门控以消除噪声边。机器人通过利用先前的动作记忆和图嵌入的混合策略依次细化位姿。在局部图校正之后,共识方案协调机器人间的差异,以产生全局一致的估计。我们在全面的合成和真实世界数据集上的广泛评估表明,我们学习的基于MARL的actor比最先进的分布式PGO框架平均减少了37.5%的全局目标,同时将推理效率提高了至少6倍。我们还证明了actor复制允许单个学习策略轻松扩展到更大的机器人团队,而无需任何重新训练。

🔬 方法详解

问题定义:论文旨在解决多机器人SLAM中分布式位姿图优化(PGO)问题。现有方法,如迭代最近点(ICP)等,通常依赖于线性化非凸优化目标,容易陷入局部最小值,导致次优的位姿估计。此外,传统方法计算复杂度高,难以扩展到大规模机器人团队。

核心思路:论文的核心思路是将分布式PGO问题建模为一个部分可观察马尔可夫博弈,利用多智能体强化学习(MARL)训练智能体,使其能够学习到优化的位姿估计策略。每个智能体负责优化局部位姿图,并通过共识机制与其他智能体协调,最终实现全局一致的位姿图优化。这种方法避免了直接求解非凸优化问题,并具有更好的可扩展性。

技术框架:整体框架包括以下几个主要模块:1) 图划分器:将全局位姿图分解为多个局部位姿图,分配给不同的机器人。2) GNN编码器:每个机器人运行一个循环边条件图神经网络(GNN)编码器,用于提取局部位姿图的特征。3) 强化学习策略:每个机器人使用学习到的策略来优化局部位姿估计。该策略是混合策略,结合了先前的动作记忆和图嵌入。4) 共识方案:用于协调机器人之间的位姿估计差异,确保全局一致性。

关键创新:最重要的技术创新点在于将分布式PGO问题建模为MARL问题,并使用GNN编码器和强化学习策略来学习优化的位姿估计。与传统方法相比,该方法避免了直接求解非凸优化问题,并具有更好的鲁棒性和可扩展性。此外,自适应边门控机制可以有效地消除噪声边,提高位姿估计的精度。

关键设计:GNN编码器使用循环结构,以便利用先前的动作记忆。自适应边门控机制通过学习权重来控制边的信息传递。强化学习策略使用混合策略,结合了先前的动作记忆和图嵌入。损失函数的设计旨在最小化全局位姿图的误差,并鼓励智能体之间的协作。

📊 实验亮点

实验结果表明,该方法在合成和真实世界数据集上均优于现有方法。与最先进的分布式PGO框架相比,该方法平均减少了37.5%的全局目标,同时将推理效率提高了至少6倍。此外,该方法具有良好的可扩展性,可以通过actor复制轻松扩展到更大的机器人团队,而无需重新训练。

🎯 应用场景

该研究成果可应用于大规模多机器人协同作业场景,例如:协同搜索救援、大型仓库的自动化管理、以及复杂环境下的地图构建等。通过提升多机器人SLAM的精度和效率,可以显著提高这些应用场景的智能化水平和作业效率,具有重要的实际应用价值。

📄 摘要(原文)

We consider the distributed pose-graph optimization (PGO) problem, which is fundamental in accurate trajectory estimation in multi-robot simultaneous localization and mapping (SLAM). Conventional iterative approaches linearize a highly non-convex optimization objective, requiring repeated solving of normal equations, which often converge to local minima and thus produce suboptimal estimates. We propose a scalable, outlier-robust distributed planar PGO framework using Multi-Agent Reinforcement Learning (MARL). We cast distributed PGO as a partially observable Markov game defined on local pose-graphs, where each action refines a single edge's pose estimate. A graph partitioner decomposes the global pose graph, and each robot runs a recurrent edge-conditioned Graph Neural Network (GNN) encoder with adaptive edge-gating to denoise noisy edges. Robots sequentially refine poses through a hybrid policy that utilizes prior action memory and graph embeddings. After local graph correction, a consensus scheme reconciles inter-robot disagreements to produce a globally consistent estimate. Our extensive evaluations on a comprehensive suite of synthetic and real-world datasets demonstrate that our learned MARL-based actors reduce the global objective by an average of 37.5% more than the state-of-the-art distributed PGO framework, while enhancing inference efficiency by at least 6X. We also demonstrate that actor replication allows a single learned policy to scale effortlessly to substantially larger robot teams without any retraining. Code is publicly available at https://github.com/herolab-uga/policies-over-poses.