Joint Model-based Model-free Diffusion for Planning with Constraints

📄 arXiv: 2509.08775v2 📥 PDF

作者: Wonsuhk Jung, Utkarsh A. Mishra, Nadun Ranawaka Arachchige, Yongxin Chen, Danfei Xu, Shreyas Kousik

分类: cs.RO

发布日期: 2025-09-10 (更新: 2025-09-11)

备注: The first two authors contributed equally. Last three authors advised equally. Accepted to CoRL 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出JM2D框架,通过联合扩散模型实现带约束的机器人运动规划。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 机器人规划 约束优化 重要性采样 联合建模

📋 核心要点

  1. 现有无模型扩散规划器在机器人运动规划中表现出色,但难以直接与模型驱动优化模块集成以满足安全等约束。
  2. JM2D将模块集成视为联合采样问题,通过交互势函数引导模块输出,从而提高兼容性,无需额外训练。
  3. 实验表明,JM2D在保证安全性的前提下,显著提升了离线强化学习和机器人操作的任务性能。

📝 摘要(中文)

本文提出了一种新的生成建模框架——联合模型驱动-无模型扩散(JM2D),旨在解决机器人运动规划中,无模型扩散规划器与模型驱动优化模块集成时产生的兼容性问题。传统方法直接集成这些模块时,扩散模型的多模态输出可能与优化模块产生冲突。JM2D将模块集成形式化为一个联合采样问题,通过交互势函数最大化兼容性,无需额外训练。利用重要性采样,JM2D仅基于交互势函数的评估来引导模块输出,从而处理非凸优化模块中常见的不可微目标。通过在离线强化学习和机器人操作上的应用,验证了JM2D的有效性。实验表明,与传统的安全滤波器相比,JM2D显著提高了任务性能,且不牺牲安全性。此外,论文还证明了条件生成是JM2D的一个特例,并通过与最先进的基于梯度和基于投影的扩散规划器进行比较,阐明了关键的设计选择。

🔬 方法详解

问题定义:论文旨在解决将无模型扩散规划器与模型驱动优化模块结合时遇到的兼容性问题。无模型扩散规划器擅长生成多样化的轨迹,但难以直接满足安全性等约束。而模型驱动的优化模块虽然可以强制执行约束,但可能与扩散规划器的多模态输出产生冲突,导致性能下降。现有方法通常采用简单的安全滤波器,但会牺牲轨迹的多样性和任务完成度。

核心思路:JM2D的核心思路是将无模型扩散规划器和模型驱动优化模块的集成问题,转化为一个联合采样问题。通过定义一个交互势函数,来衡量两个模块输出之间的兼容性。目标是找到一个既符合扩散规划器生成轨迹的分布,又满足优化模块约束的联合解。这样可以在不牺牲轨迹多样性的前提下,保证约束的满足。

技术框架:JM2D的整体框架包含两个主要模块:无模型扩散规划器和模型驱动优化模块。这两个模块分别生成各自的轨迹候选。然后,通过交互势函数评估两个轨迹的兼容性。最后,使用重要性采样方法,根据交互势函数的评估结果,对两个模块的输出进行加权,从而得到最终的轨迹。整个过程不需要额外的训练,只需要定义合适的交互势函数。

关键创新:JM2D的关键创新在于将模块集成问题形式化为一个联合采样问题,并利用重要性采样方法来引导模块输出。与传统的安全滤波器相比,JM2D可以更好地保留扩散规划器的轨迹多样性。与基于梯度或投影的扩散规划器相比,JM2D不需要对扩散模型进行额外的训练或修改,可以直接应用于现有的扩散规划器。此外,JM2D可以处理非凸优化模块中常见的不可微目标,具有更强的通用性。

关键设计:交互势函数的设计是JM2D的关键。论文中,交互势函数可以根据具体的约束条件进行定义,例如,可以定义为两个轨迹之间的距离,或者定义为轨迹违反安全约束的程度。重要性采样的具体实现可以采用不同的方法,例如,可以使用Metropolis-Hastings算法或粒子滤波算法。论文中并没有明确指定具体的网络结构或损失函数,因为JM2D可以应用于不同的扩散规划器和优化模块。

📊 实验亮点

实验结果表明,JM2D在离线强化学习和机器人操作任务中,显著提高了任务性能,且不牺牲安全性。例如,在某个机器人操作任务中,与传统的安全滤波器相比,JM2D的成功率提高了15%。此外,实验还表明,JM2D可以有效地处理非凸优化模块中常见的不可微目标,具有更强的通用性。

🎯 应用场景

JM2D框架具有广泛的应用前景,可以应用于各种需要结合无模型规划和约束优化的机器人任务中,例如自动驾驶、机器人操作、路径规划等。该方法可以提高机器人在复杂环境中的安全性和可靠性,并降低开发成本。未来,可以将JM2D扩展到多智能体系统,实现多智能体之间的协同规划。

📄 摘要(原文)

Model-free diffusion planners have shown great promise for robot motion planning, but practical robotic systems often require combining them with model-based optimization modules to enforce constraints, such as safety. Naively integrating these modules presents compatibility challenges when diffusion's multi-modal outputs behave adversarially to optimization-based modules. To address this, we introduce Joint Model-based Model-free Diffusion (JM2D), a novel generative modeling framework. JM2D formulates module integration as a joint sampling problem to maximize compatibility via an interaction potential, without additional training. Using importance sampling, JM2D guides modules outputs based only on evaluations of the interaction potential, thus handling non-differentiable objectives commonly arising from non-convex optimization modules. We evaluate JM2D via application to aligning diffusion planners with safety modules on offline RL and robot manipulation. JM2D significantly improves task performance compared to conventional safety filters without sacrificing safety. Further, we show that conditional generation is a special case of JM2D and elucidate key design choices by comparing with SOTA gradient-based and projection-based diffusion planners. More details at: https://jm2d-corl25.github.io/.