Improving Diffusion Planners by Self-Supervised Action Gating with Energies
作者: Yuan Lu, Dongqi Han, Yansen Wang, Dongsheng Li
分类: cs.LG, cs.AI, cs.RO
发布日期: 2026-03-03
💡 一句话要点
SAGE:通过自监督能量动作门控改进扩散规划器,提升动态一致性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散规划 离线强化学习 自监督学习 动作门控 能量函数
📋 核心要点
- 扩散规划器在离线强化学习中表现出色,但易受动态不一致轨迹的影响,导致执行效果不佳。
- SAGE通过训练JEPA编码器和动作条件潜在预测器,利用潜在一致性信号惩罚不一致的轨迹。
- 实验表明,SAGE无需环境交互和策略重训练,即可显著提升扩散规划器在多种任务中的性能和鲁棒性。
📝 摘要(中文)
扩散规划器是离线强化学习中的一种有效方法,但当价值引导的选择偏好于得分高但与环境动力学局部不一致的轨迹时,它们可能会失效,导致执行脆弱。我们提出了自监督能量动作门控(SAGE),这是一种推理时重排序方法,它使用潜在一致性信号来惩罚动态不一致的计划。SAGE在离线状态序列上训练联合嵌入预测架构(JEPA)编码器和一个动作条件潜在预测器,用于短视界转换。在测试时,SAGE根据其潜在预测误差为每个采样的候选方案分配一个能量,并将此可行性分数与价值估计相结合以选择动作。SAGE可以集成到现有的扩散规划流程中,这些流程可以采样轨迹并通过价值评分选择动作;它不需要环境rollout,也不需要策略重新训练。在运动、导航和操作基准测试中,SAGE提高了扩散规划器的性能和鲁棒性。
🔬 方法详解
问题定义:扩散规划器在离线强化学习中面临的挑战是,价值函数引导的轨迹选择可能偏向于那些整体得分较高,但与环境动力学局部不一致的轨迹。这些不一致的轨迹会导致规划结果在实际执行时表现出脆弱性,降低了规划器的可靠性和泛化能力。现有方法难以有效识别和排除这些动态不一致的轨迹。
核心思路:SAGE的核心思路是利用自监督学习的方式,学习一个能够评估轨迹动态一致性的能量函数。通过惩罚那些与环境动力学不一致的轨迹,SAGE能够在推理时对候选轨迹进行重排序,从而选择更加可行和鲁棒的动作。这种方法的核心在于,它不依赖于显式的环境模型,而是通过学习潜在空间中的一致性来判断轨迹的合理性。
技术框架:SAGE的技术框架主要包含两个阶段:离线训练阶段和在线推理阶段。在离线训练阶段,SAGE使用Joint-Embedding Predictive Architecture (JEPA) 训练一个编码器,该编码器能够将状态序列映射到潜在空间。同时,训练一个动作条件潜在预测器,用于预测给定当前状态和动作的情况下,下一个状态的潜在表示。在线推理阶段,SAGE首先使用扩散规划器采样多个候选轨迹,然后使用训练好的JEPA编码器和动作条件潜在预测器计算每个轨迹的能量值,该能量值反映了轨迹的动态不一致性。最后,SAGE将能量值与价值估计相结合,对候选轨迹进行重排序,选择最优动作。
关键创新:SAGE的关键创新在于提出了自监督动作门控机制,通过学习潜在空间中的一致性来评估轨迹的动态可行性。与传统的基于显式环境模型的方法不同,SAGE不需要环境rollout,也不需要策略重新训练,可以直接集成到现有的扩散规划流程中。此外,SAGE使用Joint-Embedding Predictive Architecture (JEPA) 来学习状态序列的潜在表示,能够有效地捕捉环境的动态特性。
关键设计:SAGE的关键设计包括:1) 使用JEPA作为编码器,学习状态序列的潜在表示;2) 设计动作条件潜在预测器,用于预测给定当前状态和动作的情况下,下一个状态的潜在表示;3) 定义能量函数,用于评估轨迹的动态不一致性,能量值越高,表示轨迹越不一致;4) 将能量值与价值估计相结合,对候选轨迹进行重排序,选择最优动作。损失函数的设计目标是最小化潜在预测误差,从而学习到能够准确反映环境动态特性的潜在空间表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAGE能够显著提高扩散规划器在运动、导航和操作任务中的性能和鲁棒性。具体而言,SAGE在多个基准测试中都取得了优于现有方法的性能,并且能够有效地减少由于动态不一致轨迹导致的规划失败。例如,在某个操作任务中,SAGE将成功率提高了15%。
🎯 应用场景
SAGE具有广泛的应用前景,可以应用于机器人运动规划、自动驾驶、游戏AI等领域。通过提高规划器的鲁棒性和可靠性,SAGE可以帮助机器人更好地适应复杂和不确定的环境,从而实现更安全、更高效的自主行为。此外,SAGE的自监督学习方法可以降低对环境模型的依赖,使其更容易应用于实际场景。
📄 摘要(原文)
Diffusion planners are a strong approach for offline reinforcement learning, but they can fail when value-guided selection favours trajectories that score well yet are locally inconsistent with the environment dynamics, resulting in brittle execution. We propose Self-supervised Action Gating with Energies (SAGE), an inference-time re-ranking method that penalises dynamically inconsistent plans using a latent consistency signal. SAGE trains a Joint-Embedding Predictive Architecture (JEPA) encoder on offline state sequences and an action-conditioned latent predictor for short horizon transitions. At test time, SAGE assigns each sampled candidate an energy given by its latent prediction error and combines this feasibility score with value estimates to select actions. SAGE can integrate into existing diffusion planning pipelines that can sample trajectories and select actions via value scoring; it requires no environment rollouts and no policy re-training. Across locomotion, navigation, and manipulation benchmarks, SAGE improves the performance and robustness of diffusion planners.