Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration

📄 arXiv: 2512.13293v2 📥 PDF

作者: Hao Fu, Wei Liu, Shuai Zhou

分类: cs.RO, cs.AI

发布日期: 2025-12-15 (更新: 2025-12-16)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于内在动机的多机器人社会编队导航算法,实现协同探索。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 多机器人系统 强化学习 社会编队导航 内在动机 协同探索

📋 核心要点

  1. 行人行为的不可预测性和不合作性给多机器人社会编队导航带来挑战,尤其是在协同探索效率方面。
  2. 提出一种基于内在动机的协同探索多机器人强化学习算法,通过自学习内在奖励机制缓解策略保守性。
  3. 采用双重采样模式增强导航策略和内在奖励的表示,并通过双时间尺度更新规则解耦参数更新。

📝 摘要(中文)

本文研究了强化学习(RL)在多机器人社会编队导航中的应用,这是实现无缝人机共存的关键能力。虽然RL提供了一个有前景的范例,但行人行为固有的不可预测性和通常不合作的动态带来了巨大的挑战,尤其是在机器人之间协调探索的效率方面。为了解决这个问题,我们提出了一种新颖的协同探索多机器人RL算法,引入了一种内在动机探索。其核心组成部分是一种自学习内在奖励机制,旨在共同缓解策略保守性。此外,该算法在集中训练和分散执行框架内结合了双重采样模式,以增强导航策略和内在奖励的表示,利用双时间尺度更新规则来解耦参数更新。在社会编队导航基准上的经验结果表明,所提出的算法在关键指标上优于现有的最先进方法。

🔬 方法详解

问题定义:论文旨在解决多机器人社会编队导航中,由于行人行为的复杂性和不确定性,导致机器人难以高效协同探索环境,从而影响导航性能的问题。现有方法往往存在策略保守性,难以充分探索复杂环境。

核心思路:论文的核心思路是引入内在动机,鼓励机器人主动探索未知区域,从而提高协同探索的效率。通过设计一种自学习的内在奖励机制,引导机器人学习更有效的导航策略,并缓解策略保守性。

技术框架:该算法采用集中训练和分散执行(CTDE)框架。在集中训练阶段,所有机器人的信息被集中起来进行策略学习和内在奖励学习。在分散执行阶段,每个机器人根据学习到的策略和内在奖励独立行动。算法包含导航策略学习模块和内在奖励学习模块,并采用双重采样模式来增强表示能力。

关键创新:论文的关键创新在于提出了一种自学习的内在奖励机制,该机制能够根据环境的复杂性和机器人的探索情况动态调整奖励,从而更有效地引导机器人进行协同探索。此外,双重采样模式和双时间尺度更新规则也有助于提高算法的性能。

关键设计:内在奖励函数的设计是关键,它需要能够反映环境的未知性和机器人的探索程度。论文采用了一种基于预测误差的内在奖励函数,鼓励机器人探索那些预测误差较大的区域。双时间尺度更新规则用于解耦导航策略和内在奖励的参数更新,避免相互干扰。具体的网络结构和损失函数细节在论文中进行了详细描述。

📊 实验亮点

实验结果表明,所提出的算法在社会编队导航基准上优于现有的最先进方法。具体而言,该算法在导航成功率、路径长度和碰撞率等关键指标上均取得了显著提升。开源代码和视频演示可在GitHub上获取。

🎯 应用场景

该研究成果可应用于各种需要人机共存和协同导航的场景,例如:商场、机场、博物馆等公共场所的导览机器人,医院、养老院等场所的辅助机器人,以及智能仓储、智能工厂等领域的协作机器人。通过提高机器人的导航效率和安全性,可以改善用户体验,提高工作效率,并促进人机协作的进一步发展。

📄 摘要(原文)

This paper investigates the application of reinforcement learning (RL) to multi-robot social formation navigation, a critical capability for enabling seamless human-robot coexistence. While RL offers a promising paradigm, the inherent unpredictability and often uncooperative dynamics of pedestrian behavior pose substantial challenges, particularly concerning the efficiency of coordinated exploration among robots. To address this, we propose a novel coordinated-exploration multi-robot RL algorithm introducing an intrinsic motivation exploration. Its core component is a self-learning intrinsic reward mechanism designed to collectively alleviate policy conservatism. Moreover, this algorithm incorporates a dual-sampling mode within the centralized training and decentralized execution framework to enhance the representation of both the navigation policy and the intrinsic reward, leveraging a two-time-scale update rule to decouple parameter updates. Empirical results on social formation navigation benchmarks demonstrate the proposed algorithm's superior performance over existing state-of-the-art methods across crucial metrics. Our code and video demos are available at: https://github.com/czxhunzi/CEMRRL.