Learning to Coordinate: Distributed Meta-Trajectory Optimization Via Differentiable ADMM-DDP

作者: Bingheng Wang, Yichao Gao, Tianchen Sun, Lin Zhao

分类: cs.LG, cs.MA, cs.RO, eess.SY

发布日期: 2025-09-01 (更新: 2025-09-05)

💡 一句话要点

提出L2C框架，通过可微ADMM-DDP实现分布式元轨迹优化，解决多智能体协同问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 分布式优化 元学习 轨迹优化 ADMM-DDP 多智能体系统

📋 核心要点

现有基于ADMM-DDP的分布式轨迹优化方法需要大量调参，难以平衡局部任务性能和全局协同。
L2C框架通过元学习智能体超参数，自适应不同任务和智能体配置，实现高效的分布式协同。
实验表明，L2C在复杂任务中生成动态可行轨迹，并能适应不同团队规模，梯度计算速度提升88%。

📝 摘要（中文）

本文提出了一种名为Learning to Coordinate (L2C)的通用框架，用于元学习超参数，这些超参数由轻量级的智能体神经网络建模，以适应不同的任务和智能体配置。L2C以分布式方式端到端地通过ADMM-DDP流程进行微分。它还通过重用DDP组件（如Riccati递归和反馈增益）来实现高效的元梯度计算。这些梯度对应于分布式矩阵值LQR问题的最优解，这些问题通过辅助ADMM框架在智能体之间进行协调，该框架在温和的假设下变为凸优化问题。通过截断迭代和元学习ADMM惩罚参数（针对快速残差减少进行了优化）进一步加速了训练，并具有可证明的Lipschitz有界梯度误差。在具有挑战性的合作空中运输任务中，L2C使用IsaacSIM在高保真仿真中生成动态可行的轨迹，重新配置四旋翼飞行器编队以在狭小空间中安全地进行6自由度负载操作，并稳健地适应不同的团队规模和任务条件，同时实现了比最先进方法快达88%的梯度计算速度。

🔬 方法详解

问题定义：现有的基于ADMM-DDP的分布式轨迹优化方法，在多智能体协同系统中，需要手动调整大量的超参数，这些超参数共同控制着局部任务的性能和全局的协同效果。手动调参过程耗时且低效，难以适应不同的任务和智能体配置。因此，如何自动地学习这些超参数，以实现高效的分布式协同，是一个亟待解决的问题。

核心思路：L2C的核心思路是利用元学习的思想，将超参数的学习过程建模为一个优化问题。通过构建轻量级的智能体神经网络来表示这些超参数，并利用可微分的ADMM-DDP流程，实现端到端的元学习。这样，就可以通过梯度下降的方法，自动地学习到适应不同任务和智能体配置的超参数，从而提高分布式协同的效率和性能。

技术框架：L2C的整体框架包括以下几个主要模块：1) 基于ADMM-DDP的分布式轨迹优化模块，负责生成每个智能体的局部轨迹；2) 轻量级的智能体神经网络，用于建模超参数；3) 元学习优化器，用于更新智能体神经网络的参数。整个流程是端到端可微分的，可以通过反向传播算法计算梯度，并利用梯度下降法更新智能体神经网络的参数。此外，为了加速训练过程，L2C还采用了截断迭代和元学习ADMM惩罚参数等技术。

关键创新：L2C最重要的技术创新点在于将元学习的思想引入到分布式轨迹优化中，实现了超参数的自动学习。与传统的基于手动调参的方法相比，L2C可以自动地学习到适应不同任务和智能体配置的超参数，从而提高了分布式协同的效率和性能。此外，L2C还通过重用DDP组件（如Riccati递归和反馈增益）来实现高效的元梯度计算，进一步提高了训练效率。

关键设计：L2C的关键设计包括以下几个方面：1) 智能体神经网络的结构设计，需要保证其轻量级和表达能力；2) 损失函数的设计，需要能够反映局部任务的性能和全局的协同效果；3) 元学习优化器的选择，需要能够有效地更新智能体神经网络的参数；4) ADMM惩罚参数的元学习策略，需要能够加速训练过程并保证收敛性。

📊 实验亮点

实验结果表明，L2C在合作空中运输任务中表现出色，能够生成动态可行的轨迹，并能适应不同的团队规模和任务条件。与最先进的方法相比，L2C的梯度计算速度提高了高达88%。此外，L2C还能够重新配置四旋翼飞行器编队，以在狭小空间中安全地进行6自由度负载操作。

🎯 应用场景

L2C框架具有广泛的应用前景，可应用于多机器人协同、自动驾驶、智能交通等领域。例如，在多机器人协同搬运任务中，L2C可以自动学习每个机器人的控制参数，实现高效的协同搬运。在自动驾驶领域，L2C可以用于优化车辆的行驶轨迹，提高行驶的安全性和效率。在智能交通领域，L2C可以用于优化交通信号灯的配时，缓解交通拥堵。

📄 摘要（原文）

Distributed trajectory optimization via ADMM-DDP is a powerful approach for coordinating multi-agent systems, but it requires extensive tuning of tightly coupled hyperparameters that jointly govern local task performance and global coordination. In this paper, we propose Learning to Coordinate (L2C), a general framework that meta-learns these hyperparameters, modeled by lightweight agent-wise neural networks, to adapt across diverse tasks and agent configurations. L2C differentiates end-to-end through the ADMM-DDP pipeline in a distributed manner. It also enables efficient meta-gradient computation by reusing DDP components such as Riccati recursions and feedback gains. These gradients correspond to the optimal solutions of distributed matrix-valued LQR problems, coordinated across agents via an auxiliary ADMM framework that becomes convex under mild assumptions. Training is further accelerated by truncating iterations and meta-learning ADMM penalty parameters optimized for rapid residual reduction, with provable Lipschitz-bounded gradient errors. On a challenging cooperative aerial transport task, L2C generates dynamically feasible trajectories in high-fidelity simulation using IsaacSIM, reconfigures quadrotor formations for safe 6-DoF load manipulation in tight spaces, and adapts robustly to varying team sizes and task conditions, while achieving up to $88\%$ faster gradient computation than state-of-the-art methods.

Learning to Coordinate: Distributed Meta-Trajectory Optimization Via Differentiable ADMM-DDP

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册