Learning to Coordinate: Distributed Meta-Trajectory Optimization Via Differentiable ADMM-DDP

📄 arXiv: 2509.01630v2 📥 PDF

作者: Bingheng Wang, Yichao Gao, Tianchen Sun, Lin Zhao

分类: cs.LG, cs.MA, cs.RO, eess.SY

发布日期: 2025-09-01 (更新: 2025-09-05)


💡 一句话要点

提出L2C框架,通过可微ADMM-DDP实现分布式元轨迹优化,解决多智能体协同问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 分布式优化 元学习 轨迹优化 ADMM-DDP 多智能体系统

📋 核心要点

  1. 现有基于ADMM-DDP的分布式轨迹优化方法需要大量调参,难以平衡局部任务性能和全局协同。
  2. L2C框架通过元学习智能体超参数,自适应不同任务和智能体配置,实现高效的分布式协同。
  3. 实验表明,L2C在复杂任务中生成动态可行轨迹,并能适应不同团队规模,梯度计算速度提升88%。

📝 摘要(中文)

本文提出了一种名为Learning to Coordinate (L2C)的通用框架,用于元学习超参数,这些超参数由轻量级的智能体神经网络建模,以适应不同的任务和智能体配置。L2C以分布式方式端到端地通过ADMM-DDP流程进行微分。它还通过重用DDP组件(如Riccati递归和反馈增益)来实现高效的元梯度计算。这些梯度对应于分布式矩阵值LQR问题的最优解,这些问题通过辅助ADMM框架在智能体之间进行协调,该框架在温和的假设下变为凸优化问题。通过截断迭代和元学习ADMM惩罚参数(针对快速残差减少进行了优化)进一步加速了训练,并具有可证明的Lipschitz有界梯度误差。在具有挑战性的合作空中运输任务中,L2C使用IsaacSIM在高保真仿真中生成动态可行的轨迹,重新配置四旋翼飞行器编队以在狭小空间中安全地进行6自由度负载操作,并稳健地适应不同的团队规模和任务条件,同时实现了比最先进方法快达88%的梯度计算速度。

🔬 方法详解

问题定义:现有的基于ADMM-DDP的分布式轨迹优化方法,在多智能体协同系统中,需要手动调整大量的超参数,这些超参数共同控制着局部任务的性能和全局的协同效果。手动调参过程耗时且低效,难以适应不同的任务和智能体配置。因此,如何自动地学习这些超参数,以实现高效的分布式协同,是一个亟待解决的问题。

核心思路:L2C的核心思路是利用元学习的思想,将超参数的学习过程建模为一个优化问题。通过构建轻量级的智能体神经网络来表示这些超参数,并利用可微分的ADMM-DDP流程,实现端到端的元学习。这样,就可以通过梯度下降的方法,自动地学习到适应不同任务和智能体配置的超参数,从而提高分布式协同的效率和性能。

技术框架:L2C的整体框架包括以下几个主要模块:1) 基于ADMM-DDP的分布式轨迹优化模块,负责生成每个智能体的局部轨迹;2) 轻量级的智能体神经网络,用于建模超参数;3) 元学习优化器,用于更新智能体神经网络的参数。整个流程是端到端可微分的,可以通过反向传播算法计算梯度,并利用梯度下降法更新智能体神经网络的参数。此外,为了加速训练过程,L2C还采用了截断迭代和元学习ADMM惩罚参数等技术。

关键创新:L2C最重要的技术创新点在于将元学习的思想引入到分布式轨迹优化中,实现了超参数的自动学习。与传统的基于手动调参的方法相比,L2C可以自动地学习到适应不同任务和智能体配置的超参数,从而提高了分布式协同的效率和性能。此外,L2C还通过重用DDP组件(如Riccati递归和反馈增益)来实现高效的元梯度计算,进一步提高了训练效率。

关键设计:L2C的关键设计包括以下几个方面:1) 智能体神经网络的结构设计,需要保证其轻量级和表达能力;2) 损失函数的设计,需要能够反映局部任务的性能和全局的协同效果;3) 元学习优化器的选择,需要能够有效地更新智能体神经网络的参数;4) ADMM惩罚参数的元学习策略,需要能够加速训练过程并保证收敛性。

📊 实验亮点

实验结果表明,L2C在合作空中运输任务中表现出色,能够生成动态可行的轨迹,并能适应不同的团队规模和任务条件。与最先进的方法相比,L2C的梯度计算速度提高了高达88%。此外,L2C还能够重新配置四旋翼飞行器编队,以在狭小空间中安全地进行6自由度负载操作。

🎯 应用场景

L2C框架具有广泛的应用前景,可应用于多机器人协同、自动驾驶、智能交通等领域。例如,在多机器人协同搬运任务中,L2C可以自动学习每个机器人的控制参数,实现高效的协同搬运。在自动驾驶领域,L2C可以用于优化车辆的行驶轨迹,提高行驶的安全性和效率。在智能交通领域,L2C可以用于优化交通信号灯的配时,缓解交通拥堵。

📄 摘要(原文)

Distributed trajectory optimization via ADMM-DDP is a powerful approach for coordinating multi-agent systems, but it requires extensive tuning of tightly coupled hyperparameters that jointly govern local task performance and global coordination. In this paper, we propose Learning to Coordinate (L2C), a general framework that meta-learns these hyperparameters, modeled by lightweight agent-wise neural networks, to adapt across diverse tasks and agent configurations. L2C differentiates end-to-end through the ADMM-DDP pipeline in a distributed manner. It also enables efficient meta-gradient computation by reusing DDP components such as Riccati recursions and feedback gains. These gradients correspond to the optimal solutions of distributed matrix-valued LQR problems, coordinated across agents via an auxiliary ADMM framework that becomes convex under mild assumptions. Training is further accelerated by truncating iterations and meta-learning ADMM penalty parameters optimized for rapid residual reduction, with provable Lipschitz-bounded gradient errors. On a challenging cooperative aerial transport task, L2C generates dynamically feasible trajectories in high-fidelity simulation using IsaacSIM, reconfigures quadrotor formations for safe 6-DoF load manipulation in tight spaces, and adapts robustly to varying team sizes and task conditions, while achieving up to $88\%$ faster gradient computation than state-of-the-art methods.