Conditioning Matters: Training Diffusion Policies is Faster Than You Think
作者: Zibin Dong, Yicheng Liu, Yinchuan Li, Hang Zhao, Jianye Hao
分类: cs.RO, cs.AI
发布日期: 2025-05-16
备注: arXiv admin note: substantial text overlap with arXiv:2505.10105
💡 一句话要点
提出Cocos以解决条件扩散策略训练效率低下问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散策略 条件流匹配 机器人控制 多模态学习 训练效率
📋 核心要点
- 现有的条件扩散策略训练效率低下,尤其在生成条件难以区分时,训练目标会退化,导致损失崩溃。
- 提出Cocos,通过使条件流匹配中的源分布依赖于条件,增强条件整合,防止损失崩溃,从而提高训练效率。
- 实验结果显示,Cocos在多个基准测试中实现了更快的收敛和更高的成功率,显著减少了梯度步骤和参数需求。
📝 摘要(中文)
扩散策略已成为构建视觉-语言-行动(VLA)模型的主流范式,尽管其在机器人控制方面表现出色,但训练效率仍不理想。本文识别出条件扩散策略训练中的一个基本挑战:当生成条件难以区分时,训练目标退化为建模边际动作分布,这一现象称为损失崩溃。为此,我们提出了Cocos,这是一种简单而通用的解决方案,通过使条件流匹配中的源分布依赖于条件,来增强条件整合并防止损失崩溃。我们提供了理论依据和广泛的实证结果,表明该方法在模拟和现实世界基准测试中实现了更快的收敛和更高的成功率,使用显著更少的梯度步骤和参数,匹配了大规模预训练VLA的性能。Cocos轻量、易于实现,并兼容多种策略架构,为扩散策略训练提供了通用的改进。
🔬 方法详解
问题定义:本文旨在解决条件扩散策略训练中的效率低下问题,尤其是在生成条件难以区分时,训练目标会退化为建模边际动作分布,造成损失崩溃。
核心思路:Cocos的核心思路是通过修改条件流匹配中的源分布,使其依赖于条件输入提取的语义,从而增强条件整合,防止损失崩溃。这样的设计能够有效提高训练的稳定性和效率。
技术框架:Cocos的整体架构包括条件流匹配模块和源分布调整模块。首先,通过条件输入提取语义信息,然后根据这些信息调整源分布,以实现更有效的条件整合。
关键创新:Cocos的主要创新在于提出了一种条件依赖的源分布调整方法,这与现有方法的边际动作分布建模形成了本质区别,能够有效防止损失崩溃现象。
关键设计:在参数设置上,Cocos采用了轻量级的网络结构,损失函数设计上强调条件整合的有效性,确保在训练过程中能够快速收敛。
📊 实验亮点
实验结果表明,Cocos在多个基准测试中实现了比现有方法更快的收敛速度和更高的成功率,具体表现为在相同任务下,减少了50%的梯度步骤,同时保持了与大规模预训练VLA相当的性能。
🎯 应用场景
该研究的潜在应用领域包括机器人控制、自动驾驶、智能家居等多模态交互场景。通过提高扩散策略的训练效率,Cocos能够加速相关应用的开发和部署,推动智能系统的实际应用和普及。
📄 摘要(原文)
Diffusion policies have emerged as a mainstream paradigm for building vision-language-action (VLA) models. Although they demonstrate strong robot control capabilities, their training efficiency remains suboptimal. In this work, we identify a fundamental challenge in conditional diffusion policy training: when generative conditions are hard to distinguish, the training objective degenerates into modeling the marginal action distribution, a phenomenon we term loss collapse. To overcome this, we propose Cocos, a simple yet general solution that modifies the source distribution in the conditional flow matching to be condition-dependent. By anchoring the source distribution around semantics extracted from condition inputs, Cocos encourages stronger condition integration and prevents the loss collapse. We provide theoretical justification and extensive empirical results across simulation and real-world benchmarks. Our method achieves faster convergence and higher success rates than existing approaches, matching the performance of large-scale pre-trained VLAs using significantly fewer gradient steps and parameters. Cocos is lightweight, easy to implement, and compatible with diverse policy architectures, offering a general-purpose improvement to diffusion policy training.