HALyPO: Heterogeneous-Agent Lyapunov Policy Optimization for Human-Robot Collaboration

📄 arXiv: 2603.03741v1 📥 PDF

作者: Hao Zhang, Yaru Niu, Yikai Wang, Ding Zhao, H. Eric Tseng

分类: cs.RO, cs.AI

发布日期: 2026-03-04


💡 一句话要点

HALyPO:异构智能体 Lyapunov 策略优化,提升人机协作的泛化性和鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 多智能体强化学习 Lyapunov 稳定性 策略优化 异构智能体 理性差距 机器人

📋 核心要点

  1. 人机协作中,机器人需要应对人类行为的多样性,但机器人与人类的异质性导致学习过程中的理性差距,使得多智能体强化学习训练不稳定。
  2. HALyPO 通过在策略参数空间中强制执行 Lyapunov 递减条件,直接建立形式稳定性,从而稳定分散式策略学习,缩小理性差距。
  3. 通过模拟和真实机器人实验验证,HALyPO 提高了协作场景中的泛化性和鲁棒性,尤其是在极端情况下表现更佳。

📝 摘要(中文)

为了提高人机协作(HRC)中的泛化性和鲁棒性,机器人必须处理人类行为和环境的组合多样性,这促使了多智能体强化学习(MARL)的发展。然而,机器人和人类之间固有的异质性在学习过程中产生了理性差距(RG)——分散式最佳响应动态与集中式协作上升之间的变分不匹配。由此产生的学习问题是一个一般和可微博弈,因此,如果没有额外的结构,独立的策略梯度更新可能会振荡或发散。我们提出了异构智能体 Lyapunov 策略优化(HALyPO),它通过在参数空间不一致度量上强制执行每步 Lyapunov 递减条件,直接在策略参数空间中建立形式稳定性。与针对约束马尔可夫决策过程中的状态/轨迹约束的基于 Lyapunov 的安全强化学习不同,HALyPO 使用 Lyapunov 认证来稳定分散式策略学习。HALyPO 通过最优二次投影来纠正分散式梯度,确保 RG 的单调收缩,并能够有效探索开放式交互空间。大量的模拟和真实的人形机器人实验表明,这种经过认证的稳定性提高了协作极端情况下的泛化性和鲁棒性。

🔬 方法详解

问题定义:论文旨在解决人机协作(HRC)中,由于机器人和人类智能体之间的异质性导致的理性差距(Rationality Gap, RG)问题。现有方法在多智能体强化学习(MARL)中,由于智能体间的差异,分散式策略梯度更新容易出现震荡或发散,导致学习不稳定,泛化能力差。

核心思路:论文的核心思路是通过 Lyapunov 稳定性理论,在策略参数空间中直接建立稳定性。具体来说,就是设计一个参数空间的不一致性度量,并强制执行每一步的 Lyapunov 递减条件,确保理性差距(RG)的单调收缩。这样可以避免分散式梯度更新带来的不稳定问题,从而提高学习的稳定性和泛化能力。

技术框架:HALyPO 的整体框架包括以下几个关键部分:1)定义理性差距(RG)的度量;2)设计 Lyapunov 函数,该函数基于 RG 度量;3)计算分散式策略梯度;4)通过最优二次投影,对分散式梯度进行修正,确保 Lyapunov 函数的递减;5)更新策略参数。整个流程的目标是最小化理性差距,并保证学习过程的稳定性。

关键创新:HALyPO 的最重要创新在于将 Lyapunov 稳定性理论引入到多智能体强化学习的策略优化过程中,并将其应用于解决人机协作中的异质性问题。与传统的 Lyapunov 方法(通常用于约束马尔可夫决策过程中的状态/轨迹约束)不同,HALyPO 直接作用于策略参数空间,通过 Lyapunov 认证来稳定分散式策略学习。这种方法能够有效缩小理性差距,并提高学习的稳定性和泛化能力。

关键设计:HALyPO 的关键设计包括:1)理性差距(RG)的度量方式,论文中具体如何定义机器人和人类智能体之间的差异;2)Lyapunov 函数的具体形式,如何保证其能够有效反映策略参数空间的不一致性;3)最优二次投影的具体实现,如何计算投影矩阵,以确保修正后的梯度能够使 Lyapunov 函数递减;4)策略网络的结构和参数设置,以及如何选择合适的优化算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HALyPO 在人机协作任务中显著提高了泛化性和鲁棒性。在模拟和真实机器人实验中,HALyPO 能够有效地缩小理性差距,并稳定策略学习过程。具体而言,HALyPO 在协作极端情况下表现出更强的适应能力,能够更好地处理人类行为的多样性。虽然论文中没有给出具体的性能数据和提升幅度,但强调了 HALyPO 在复杂协作场景中的优势。

🎯 应用场景

HALyPO 的潜在应用领域包括各种人机协作场景,例如:辅助驾驶、医疗机器人、智能制造、家庭服务机器人等。通过提高机器人在复杂和不确定环境中的鲁棒性和泛化能力,HALyPO 可以使机器人更好地适应人类的行为,从而实现更高效、更安全的人机协作。该研究的未来影响在于推动人机协作技术的发展,使机器人能够更好地服务于人类。

📄 摘要(原文)

To improve generalization and resilience in human-robot collaboration (HRC), robots must handle the combinatorial diversity of human behaviors and contexts, motivating multi-agent reinforcement learning (MARL). However, inherent heterogeneity between robots and humans creates a rationality gap (RG) in the learning process-a variational mismatch between decentralized best-response dynamics and centralized cooperative ascent. The resulting learning problem is a general-sum differentiable game, so independent policy-gradient updates can oscillate or diverge without added structure. We propose heterogeneous-agent Lyapunov policy optimization (HALyPO), which establishes formal stability directly in the policy-parameter space by enforcing a per-step Lyapunov decrease condition on a parameter-space disagreement metric. Unlike Lyapunov-based safe RL, which targets state/trajectory constraints in constrained Markov decision processes, HALyPO uses Lyapunov certification to stabilize decentralized policy learning. HALyPO rectifies decentralized gradients via optimal quadratic projections, ensuring monotonic contraction of RG and enabling effective exploration of open-ended interaction spaces. Extensive simulations and real-world humanoid-robot experiments show that this certified stability improves generalization and robustness in collaborative corner cases.