SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation
作者: Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu
分类: cs.RO
发布日期: 2026-03-05
备注: 16 pages, 13 figures
🔗 代码/项目: GITHUB
💡 一句话要点
SeedPolicy:通过自进化扩散策略实现机器人操作的水平扩展
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 模仿学习 扩散策略 长时程建模 门控注意力
📋 核心要点
- 扩散策略在长时程机器人操作中面临性能下降,难以有效建模长时间序列的观察。
- 提出自进化门控注意力(SEGA)模块,通过门控机制维护时间演化的潜在状态,压缩长时程信息。
- SeedPolicy在RoboTwin 2.0基准测试中显著优于现有方法,参数效率高,性能优异。
📝 摘要(中文)
模仿学习(IL)使机器人能够从专家演示中学习操作技能。扩散策略(DP)可以对多模态专家行为进行建模,但随着观察范围的增加,性能会下降,从而限制了长时程操作。我们提出了自进化门控注意力(SEGA),这是一个时间模块,它通过门控注意力维护一个随时间演变的潜在状态,从而实现高效的循环更新,将长时程观察压缩成固定大小的表示,同时过滤掉不相关的时间信息。将SEGA集成到DP中,产生了自进化扩散策略(SeedPolicy),它解决了时间建模瓶颈,并以适度的开销实现了可扩展的水平扩展。在具有50个操作任务的RoboTwin 2.0基准测试中,SeedPolicy优于DP和其他IL基线。在CNN和Transformer骨干网络上平均,SeedPolicy在干净设置下实现了36.8%的相对改进,在随机化的挑战性设置下实现了169%的相对改进,优于DP。与具有12亿参数的视觉-语言-动作模型(如RDT)相比,SeedPolicy以少一到两个数量级的参数实现了具有竞争力的性能,展示了强大的效率和可扩展性。这些结果确立了SeedPolicy作为长时程机器人操作的最先进的模仿学习方法。
🔬 方法详解
问题定义:论文旨在解决长时程机器人操作中,模仿学习方法(特别是扩散策略)随着观察范围增加而性能下降的问题。现有方法难以有效地对长时间序列的观察进行建模,导致无法完成复杂的长时程任务。
核心思路:论文的核心思路是引入一个时间模块,即自进化门控注意力(SEGA),来维护一个随时间演变的潜在状态。通过门控机制,SEGA能够选择性地关注和记忆重要的时间信息,过滤掉不相关的部分,从而将长时程的观察压缩成一个固定大小的表示。这样,模型就可以有效地处理长时程信息,而不会受到性能下降的影响。
技术框架:SeedPolicy的整体框架是将SEGA模块集成到扩散策略(DP)中。具体来说,SEGA模块接收长时程的观察序列作为输入,通过门控注意力机制进行循环更新,输出一个固定大小的潜在状态表示。然后,这个潜在状态表示被输入到扩散策略中,用于生成机器人的动作。整个框架可以端到端地进行训练。
关键创新:论文最重要的技术创新点是SEGA模块。SEGA通过门控注意力机制实现了对时间信息的选择性处理,从而能够有效地压缩长时程信息,并避免了传统循环神经网络中的梯度消失问题。与现有方法相比,SEGA能够更好地捕捉时间依赖关系,并具有更强的鲁棒性。
关键设计:SEGA模块的关键设计包括:1) 使用门控机制来控制信息的流动,从而选择性地关注和记忆重要的时间信息;2) 使用循环更新的方式来维护潜在状态,从而能够处理任意长度的观察序列;3) 使用注意力机制来捕捉不同时间步之间的依赖关系。具体的参数设置和网络结构细节在论文中有详细描述,例如门控单元的具体形式,注意力机制的类型等。损失函数采用标准的扩散策略训练损失。
🖼️ 关键图片
📊 实验亮点
SeedPolicy在RoboTwin 2.0基准测试中表现出色,在干净设置下,相比于扩散策略(DP)基线,性能提升了36.8%;在随机化的挑战性设置下,性能提升高达169%。此外,SeedPolicy在参数效率方面也具有显著优势,与具有12亿参数的RDT模型相比,SeedPolicy仅使用一到两个数量级更少的参数就实现了具有竞争力的性能。
🎯 应用场景
该研究成果可广泛应用于各种需要长时程规划和控制的机器人操作任务,例如装配、抓取、导航等。SeedPolicy的高效性和可扩展性使其能够应用于资源受限的机器人平台,并有望推动机器人技术在工业自动化、医疗保健等领域的应用。
📄 摘要(原文)
Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.