ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

作者: Ge Yan, Jiyue Zhu, Yuquan Deng, Shiqi Yang, Ri-Zhao Qiu, Xuxin Cheng, Marius Memmel, Ranjay Krishna, Ankit Goyal, Xiaolong Wang, Dieter Fox

分类: cs.RO

发布日期: 2025-09-01

💡 一句话要点

ManiFlow：基于一致性流训练的通用机器人操作策略

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 模仿学习 流匹配 扩散模型 多模态融合 Transformer 一致性训练 DiT-X

📋 核心要点

现有机器人操作策略难以处理多样化的输入模态，且生成高维动作时计算成本高昂，限制了其在复杂环境中的应用。
ManiFlow利用流匹配和一致性训练，通过DiT-X架构实现高效的多模态特征融合和快速的灵巧动作生成。
实验结果表明，ManiFlow在模拟和真实世界任务中均取得了显著的性能提升，尤其在灵巧操作任务中成功率翻倍。

📝 摘要（中文）

本文介绍了一种名为ManiFlow的视觉运动模仿学习策略，用于通用机器人操作。该策略能够根据多样化的视觉、语言和本体感受输入生成精确的高维动作。我们利用流匹配和一致性训练，仅需1-2步推理即可实现高质量的灵巧动作生成。为了高效处理多样化的输入模态，我们提出了DiT-X，一种具有自适应交叉注意力和AdaLN-Zero条件化的扩散Transformer架构，从而实现动作token和多模态观测之间细粒度的特征交互。ManiFlow在各种模拟基准测试中表现出持续的改进，并且在单臂、双臂和人形机器人设置的真实世界任务中，成功率几乎翻倍，同时提高了灵巧性。广泛的评估进一步证明了ManiFlow对新物体和背景变化的强大鲁棒性和泛化能力，并突出了其随着更大规模数据集的强大扩展能力。我们的网站：maniflow-policy.github.io。

🔬 方法详解

问题定义：现有机器人操作策略在处理复杂、高维动作空间时，往往面临计算效率和泛化能力的挑战。特别是在需要融合视觉、语言和本体感受等多模态信息的情况下，如何有效地提取和利用这些信息，生成精确的动作序列是一个难题。此外，现有方法在真实世界中的鲁棒性也受到限制，难以适应新物体和环境变化。

核心思路：ManiFlow的核心思路是利用流匹配和一致性训练，将动作生成过程建模为一个连续的流，并通过一致性约束来提高生成动作的质量和效率。通过这种方式，模型可以在较少的推理步骤中生成高质量的动作，从而降低计算成本。同时，DiT-X架构的设计旨在更好地融合多模态信息，提高模型的泛化能力。

技术框架：ManiFlow的整体框架包括一个多模态输入编码器和一个基于扩散Transformer（DiT-X）的动作生成器。多模态输入编码器负责将视觉、语言和本体感受信息编码成统一的特征表示。DiT-X则利用这些特征表示，通过流匹配和一致性训练，生成高维动作。整个训练过程旨在最小化生成动作与目标动作之间的差异，并确保生成动作的一致性。

关键创新：ManiFlow的关键创新在于以下几点：1) 采用流匹配和一致性训练，实现了高效的动作生成；2) 提出了DiT-X架构，通过自适应交叉注意力和AdaLN-Zero条件化，实现了多模态信息的有效融合；3) 在真实机器人平台上进行了广泛的实验验证，证明了其鲁棒性和泛化能力。与现有方法相比，ManiFlow能够在更短的时间内生成更高质量的动作，并且具有更强的适应性。

关键设计：DiT-X架构的关键设计包括：1) 自适应交叉注意力机制，允许模型根据输入模态的重要性动态调整注意力权重；2) AdaLN-Zero条件化，通过将条件信息注入到Transformer的每一层，提高了模型的表达能力；3) 损失函数的设计，综合考虑了动作的准确性和一致性，从而保证了生成动作的质量。

📊 实验亮点

ManiFlow在多个模拟和真实世界任务中取得了显著的性能提升。在真实世界任务中，ManiFlow在单臂、双臂和人形机器人设置下，成功率几乎翻倍。此外，ManiFlow还表现出强大的鲁棒性和泛化能力，能够适应新物体和背景变化。实验结果表明，ManiFlow能够有效地利用多模态信息，生成高质量的动作，并且具有良好的可扩展性。

🎯 应用场景

ManiFlow具有广泛的应用前景，可应用于工业自动化、家庭服务机器人、医疗康复等领域。例如，在工业自动化中，ManiFlow可以用于控制机器人完成复杂的装配任务；在家庭服务机器人中，可以用于帮助老人或残疾人完成日常生活任务；在医疗康复领域，可以用于辅助病人进行康复训练。该研究的实际价值在于提高了机器人操作的效率和灵活性，为实现更智能、更自主的机器人系统奠定了基础。未来，ManiFlow有望推动机器人技术在各个领域的广泛应用。

📄 摘要（原文）

This paper introduces ManiFlow, a visuomotor imitation learning policy for general robot manipulation that generates precise, high-dimensional actions conditioned on diverse visual, language and proprioceptive inputs. We leverage flow matching with consistency training to enable high-quality dexterous action generation in just 1-2 inference steps. To handle diverse input modalities efficiently, we propose DiT-X, a diffusion transformer architecture with adaptive cross-attention and AdaLN-Zero conditioning that enables fine-grained feature interactions between action tokens and multi-modal observations. ManiFlow demonstrates consistent improvements across diverse simulation benchmarks and nearly doubles success rates on real-world tasks across single-arm, bimanual, and humanoid robot setups with increasing dexterity. The extensive evaluation further demonstrates the strong robustness and generalizability of ManiFlow to novel objects and background changes, and highlights its strong scaling capability with larger-scale datasets. Our website: maniflow-policy.github.io.

ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册