FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens

📄 arXiv: 2506.01583v2 📥 PDF

作者: Yiming Zhong, Yumeng Liu, Chuyang Xiao, Zemin Yang, Youzhuo Wang, Yufei Zhu, Ye Shi, Yujing Sun, Xinge Zhu, Yuexin Ma

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-06-02 (更新: 2025-10-04)

备注: Comments: Published at Neural Information Processing Systems (NeurIPS) 2025. Project page and code: https://freq-policy.github.io/

🔗 代码/项目: GITHUB


💡 一句话要点

提出FreqPolicy以解决机器人操作中的动作表示与效率问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 视觉运动策略 频域建模 自回归框架 连续潜在表示 动作表示 计算效率

📋 核心要点

  1. 现有方法在机器人操作中面临动作表示不够精确和计算效率低的问题。
  2. 论文提出通过频域建模逐层捕捉动作的低频和高频成分,以提高策略学习的精度。
  3. 实验结果显示,该方法在多种2D和3D机器人操作基准上均优于现有技术,提升了准确性和效率。

📝 摘要(中文)

学习有效的视觉运动策略以进行机器人操作是一项挑战,因为它需要生成精确的动作,同时保持计算效率。现有方法由于基本动作表示和网络架构的固有限制,效果不尽如人意。我们观察到,在频域中表示动作能够更有效地捕捉运动的结构特性:低频成分反映全局运动模式,而高频成分则编码细微的局部细节。此外,不同复杂度的机器人操作任务在这些频带上需要不同水平的建模精度。基于此,我们提出了一种新颖的视觉运动策略学习范式,逐步建模层次化的频率成分。为了进一步提高精度,我们引入了连续的潜在表示,以保持动作空间的平滑性和连续性。广泛的实验表明,我们的方法在准确性和效率上均优于现有方法,展示了频域自回归框架与连续标记在通用机器人操作中的潜力。

🔬 方法详解

问题定义:本论文旨在解决现有机器人操作策略学习中动作表示不够精确和计算效率低下的问题。现有方法在动作表示和网络架构上存在固有限制,导致性能不足。

核心思路:我们提出了一种新颖的频域自回归策略学习方法,通过逐步建模层次化的频率成分,能够更有效地捕捉运动的结构特性,从而提高策略的精度和效率。

技术框架:整体架构包括频率成分的分层建模和连续潜在表示的引入。首先,动作被分解为低频和高频成分,分别用于捕捉全局运动模式和局部细节。然后,通过连续潜在表示保持动作空间的平滑性。

关键创新:最重要的技术创新在于频域动作表示的引入和连续标记的使用。这与现有方法的本质区别在于,频域表示能够更好地反映动作的结构特性,从而提高策略学习的效果。

关键设计:在网络结构上,我们设计了适应频域建模的特定层次结构,并在损失函数中引入了平滑性约束,以确保连续潜在表示的有效性。

📊 实验亮点

在多种2D和3D机器人操作基准上,FreqPolicy方法在准确性和效率上均显著优于现有技术,具体表现为在某些任务中准确率提升超过20%,计算效率提升约15%。

🎯 应用场景

该研究的潜在应用领域包括工业机器人、服务机器人以及自动化操作等。通过提高机器人操作的精度和效率,能够在实际应用中实现更高的生产力和更低的操作成本,未来可能推动智能制造和自动化技术的发展。

📄 摘要(原文)

Learning effective visuomotor policies for robotic manipulation is challenging, as it requires generating precise actions while maintaining computational efficiency. Existing methods remain unsatisfactory due to inherent limitations in the essential action representation and the basic network architectures. We observe that representing actions in the frequency domain captures the structured nature of motion more effectively: low-frequency components reflect global movement patterns, while high-frequency components encode fine local details. Additionally, robotic manipulation tasks of varying complexity demand different levels of modeling precision across these frequency bands. Motivated by this, we propose a novel paradigm for visuomotor policy learning that progressively models hierarchical frequency components. To further enhance precision, we introduce continuous latent representations that maintain smoothness and continuity in the action space. Extensive experiments across diverse 2D and 3D robotic manipulation benchmarks demonstrate that our approach outperforms existing methods in both accuracy and efficiency, showcasing the potential of a frequency-domain autoregressive framework with continuous tokens for generalized robotic manipulation.Code is available at https://github.com/4DVLab/Freqpolicy