Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising

📄 arXiv: 2510.21991v1 📥 PDF

作者: Mateo Clemente, Leo Brunswic, Rui Heng Yang, Xuan Zhao, Yasser Khalil, Haoyu Lei, Amir Rasouli, Yinchuan Li

分类: cs.RO, cs.AI

发布日期: 2025-10-24

备注: 16 pages, 11 figure, 2 tables, accepted at Neurips 2025


💡 一句话要点

提出基于遗传去噪的两步扩散策略,提升机器人操作任务性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 机器人操作 模仿学习 遗传算法 去噪过程 具身智能 策略优化

📋 核心要点

  1. 现有扩散策略在机器人控制中直接沿用视觉任务的推理策略,忽略了动作分布的特性。
  2. 通过定制去噪过程,并提出遗传去噪策略,选择低分布外风险的轨迹,提升性能和稳定性。
  3. 实验表明,该方法在多个机器人操作任务中,仅用少量推理步骤就超越了标准扩散策略。

📝 摘要(中文)

扩散模型,如扩散策略,通过模仿专家演示在机器人操作任务中取得了最先进的结果。虽然扩散模型最初是为图像和视频生成等视觉任务开发的,但它们的许多推理策略都被直接转移到控制领域,而没有进行调整。本文表明,通过针对具身人工智能任务的特定特征(特别是动作分布的结构化、低维性质)定制去噪过程,扩散策略可以有效地运行,只需少量(如5次)的神经函数评估(NFE)。基于这一洞察,我们提出了一种基于种群的采样策略,即遗传去噪,通过选择具有低分布外风险的去噪轨迹来提高性能和稳定性。我们的方法仅用2次NFE即可解决具有挑战性的任务,同时提高或匹配性能。我们在来自D4RL和Robomimic的14个机器人操作任务中评估了我们的方法,涵盖多个动作范围和推理预算。在超过200万次的评估中,我们的方法始终优于标准的基于扩散的策略,在显著减少推理步骤的同时,实现了高达20%的性能提升。

🔬 方法详解

问题定义:现有扩散策略在机器人操作任务中,直接套用图像生成领域的推理方法,忽略了机器人动作空间的低维和结构化特性。这导致了计算资源的浪费,以及性能提升的瓶颈。现有方法需要大量的神经函数评估(NFE)才能达到较好的效果,计算成本高昂。

核心思路:论文的核心思路是针对机器人操作任务的特点,优化扩散模型的去噪过程。具体来说,通过定制去噪过程,使其更适应低维动作空间,从而减少所需的NFE次数。此外,引入遗传算法的思想,通过种群采样和选择,降低分布外风险,提高策略的鲁棒性和性能。

技术框架:该方法主要包含两个步骤:1) 扩散模型的训练,使用专家数据进行模仿学习,学习动作的分布;2) 基于遗传去噪的推理过程。在推理阶段,首先从扩散模型中采样多个候选轨迹(种群),然后根据某种评估标准(例如,轨迹的分布外风险)选择最优的轨迹。

关键创新:该方法最重要的创新点在于将遗传算法的思想融入到扩散模型的去噪过程中。传统的扩散模型通常采用固定的去噪轨迹,而该方法通过种群采样和选择,能够探索更多的可能性,并选择更优的轨迹。这种方法能够有效地降低分布外风险,提高策略的泛化能力。

关键设计:关键设计包括:1) 如何定义和计算轨迹的分布外风险。论文可能使用了某种距离度量或密度估计方法来评估轨迹与训练数据的相似度;2) 如何设计遗传算法的选择算子,以保证种群的多样性和收敛性;3) 如何平衡NFE次数和性能之间的关系,选择合适的种群大小和迭代次数。

📊 实验亮点

该方法在D4RL和Robomimic的14个机器人操作任务上进行了评估,结果表明,该方法仅用2次NFE即可解决具有挑战性的任务,同时提高或匹配性能。与标准扩散策略相比,该方法实现了高达20%的性能提升,并且显著减少了推理步骤。在超过200万次的评估中,该方法始终优于基线方法。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如物体抓取、装配、导航等。通过减少推理所需的计算资源,可以降低机器人部署的成本,并提高机器人的实时性。此外,该方法还可以推广到其他具身智能任务中,例如自动驾驶、无人机控制等。

📄 摘要(原文)

Diffusion models, such as diffusion policy, have achieved state-of-the-art results in robotic manipulation by imitating expert demonstrations. While diffusion models were originally developed for vision tasks like image and video generation, many of their inference strategies have been directly transferred to control domains without adaptation. In this work, we show that by tailoring the denoising process to the specific characteristics of embodied AI tasks -- particularly structured, low-dimensional nature of action distributions -- diffusion policies can operate effectively with as few as 5 neural function evaluations (NFE). Building on this insight, we propose a population-based sampling strategy, genetic denoising, which enhances both performance and stability by selecting denoising trajectories with low out-of-distribution risk. Our method solves challenging tasks with only 2 NFE while improving or matching performance. We evaluate our approach across 14 robotic manipulation tasks from D4RL and Robomimic, spanning multiple action horizons and inference budgets. In over 2 million evaluations, our method consistently outperforms standard diffusion-based policies, achieving up to 20\% performance gains with significantly fewer inference steps.