3D Flow Diffusion Policy: Visuomotor Policy Learning via Generating Flow in 3D Space

📄 arXiv: 2509.18676v1 📥 PDF

作者: Sangjun Noh, Dongwoo Nam, Kangmin Kim, Geonhyup Lee, Yeonguk Yu, Raeyoung Kang, Kyoobin Lee

分类: cs.RO, eess.SY

发布日期: 2025-09-23

备注: 7 main scripts + 2 reference pages


💡 一句话要点

提出3D FDP,通过生成3D空间中的Flow学习通用机器人操作策略。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 视觉运动策略 3D Flow 扩散模型 强化学习 MetaWorld 真实机器人

📋 核心要点

  1. 现有机器人操作策略忽略了局部运动线索,难以处理精确和富含接触的操作。
  2. 3D FDP利用场景级3D flow作为中间表示,捕捉细粒度的局部运动信息,提升操作精度。
  3. 实验表明,3D FDP在MetaWorld和真实机器人任务中均优于现有方法,尤其擅长复杂操作。

📝 摘要(中文)

在机器人操作中,学习能够泛化到不同物体和交互动态的鲁棒的视觉运动策略仍然是一个核心挑战。现有方法通常依赖于直接的观察到动作的映射,或将感知输入压缩成全局或以物体为中心的特征,这往往忽略了对于精确和富含接触的操作至关重要的局部运动线索。我们提出了3D Flow Diffusion Policy (3D FDP),这是一个新颖的框架,它利用场景级的3D flow作为一种结构化的中间表示,来捕捉细粒度的局部运动线索。我们的方法预测采样查询点的时间轨迹,并基于这些交互感知的flow来调节动作生成,这些都在一个统一的扩散架构中共同实现。这种设计将操作建立在局部动态的基础上,同时使策略能够推理动作的更广泛的场景级后果。在MetaWorld基准测试上的大量实验表明,3D FDP在50个任务中实现了最先进的性能,尤其是在中等和困难设置下表现出色。除了仿真之外,我们还在八个真实机器人任务上验证了我们的方法,在富含接触和非抓取场景中,它始终优于先前的基线。这些结果突出了3D flow作为学习通用视觉运动策略的强大结构先验,支持开发更鲁棒和通用的机器人操作。

🔬 方法详解

问题定义:现有基于视觉的机器人操作策略,要么直接将视觉观察映射到动作,要么将视觉信息压缩成全局或物体中心的特征。这些方法忽略了局部运动信息,导致在需要精细控制和复杂接触的任务中表现不佳。因此,如何有效地利用局部运动信息,学习更鲁棒和通用的操作策略,是本文要解决的核心问题。

核心思路:本文的核心思路是利用3D flow来表示场景中的局部运动信息。3D flow能够捕捉场景中每个点的运动轨迹,提供比全局特征更丰富的局部动态信息。通过预测3D flow,策略可以更好地理解场景中物体的运动趋势,从而生成更精确的动作。此外,作者使用扩散模型来预测3D flow,这使得策略能够处理不确定性和噪声,提高鲁棒性。

技术框架:3D FDP的整体框架包含以下几个主要模块:1) 视觉感知模块:用于从图像中提取视觉特征。2) 3D Flow预测模块:使用扩散模型预测场景中的3D flow。该模块以视觉特征和一组查询点作为输入,输出每个查询点在未来一段时间内的运动轨迹。3) 动作生成模块:基于预测的3D flow生成机器人的动作。该模块将3D flow作为条件,使用一个神经网络来预测机器人的关节角度或末端执行器的位姿。整个框架采用端到端的方式进行训练。

关键创新:本文最重要的技术创新点在于将3D flow作为一种结构化的中间表示,用于学习机器人操作策略。与直接从视觉观察预测动作的方法相比,3D flow能够提供更丰富的局部运动信息,从而提高策略的精度和鲁棒性。此外,使用扩散模型来预测3D flow也是一个创新点,这使得策略能够处理不确定性和噪声。

关键设计:在3D Flow预测模块中,作者使用了一个基于Transformer的扩散模型。该模型以视觉特征和查询点作为输入,通过迭代去噪的方式预测3D flow。损失函数包括一个L2损失,用于衡量预测的3D flow与真实3D flow之间的差距,以及一个正则化项,用于约束3D flow的平滑性。在动作生成模块中,作者使用了一个多层感知机(MLP)来预测机器人的动作。MLP的输入包括预测的3D flow和机器人的当前状态。

📊 实验亮点

3D FDP在MetaWorld基准测试的50个任务中取得了state-of-the-art的性能,尤其是在medium和hard设置下表现突出。在8个真实机器人任务中,3D FDP也 consistently 优于之前的基线方法,尤其是在富含接触和非抓取场景中。这些实验结果表明,3D flow是一种强大的结构先验,可以用于学习通用的视觉运动策略。

🎯 应用场景

该研究成果可应用于各种需要精细操作的机器人任务,例如装配、抓取、操作工具等。在制造业中,可以利用该技术实现更灵活和高效的自动化生产线。在医疗领域,可以用于辅助医生进行手术操作。此外,该技术还可以应用于家庭服务机器人,使其能够完成更复杂的家务任务。未来,该研究有望推动机器人操作技术的进一步发展,实现更智能和自主的机器人系统。

📄 摘要(原文)

Learning robust visuomotor policies that generalize across diverse objects and interaction dynamics remains a central challenge in robotic manipulation. Most existing approaches rely on direct observation-to-action mappings or compress perceptual inputs into global or object-centric features, which often overlook localized motion cues critical for precise and contact-rich manipulation. We present 3D Flow Diffusion Policy (3D FDP), a novel framework that leverages scene-level 3D flow as a structured intermediate representation to capture fine-grained local motion cues. Our approach predicts the temporal trajectories of sampled query points and conditions action generation on these interaction-aware flows, implemented jointly within a unified diffusion architecture. This design grounds manipulation in localized dynamics while enabling the policy to reason about broader scene-level consequences of actions. Extensive experiments on the MetaWorld benchmark show that 3D FDP achieves state-of-the-art performance across 50 tasks, particularly excelling on medium and hard settings. Beyond simulation, we validate our method on eight real-robot tasks, where it consistently outperforms prior baselines in contact-rich and non-prehensile scenarios. These results highlight 3D flow as a powerful structural prior for learning generalizable visuomotor policies, supporting the development of more robust and versatile robotic manipulation. Robot demonstrations, additional results, and code can be found at https://sites.google.com/view/3dfdp/home.