FALCON: Actively Decoupled Visuomotor Policies for Loco-Manipulation with Foundation-Model-Based Coordination

📄 arXiv: 2512.04381v1 📥 PDF

作者: Chengyang He, Ge Sun, Yue Bai, Junkai Lu, Jiadong Zhao, Guillaume Sartoretti

分类: cs.RO

发布日期: 2025-12-04


💡 一句话要点

FALCON:基于基础模型协调的主动解耦式操作-移动机器人策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: 操作-移动机器人 视觉运动策略 扩散模型 视觉-语言基础模型 解耦策略 协调控制 对比学习 机器人学习

📋 核心要点

  1. 现有操作-移动机器人方法难以有效融合异构的移动和操作观测,导致性能下降。
  2. FALCON通过解耦移动和操作策略,并利用视觉-语言基础模型进行协调,解决了这一问题。
  3. 实验表明,FALCON在复杂的操作-移动任务中优于现有方法,并具有更好的鲁棒性和泛化性。

📝 摘要(中文)

本文提出了一种名为FALCON(FoundAtion-model-guided decoupled LoCO-maNipulation visuomotor policies)的框架,用于操作-移动机器人任务。该框架结合了模块化的扩散策略,并使用视觉-语言基础模型作为协调器。我们的方法将移动和操作显式地解耦为两个专门的视觉运动策略,使每个子系统都依赖于其自身的观察。这减轻了当单个策略被迫融合来自移动和操作的异构、可能不匹配的观察时出现的性能下降。我们的关键创新在于通过视觉-语言基础模型恢复这两个独立策略之间的协调,该模型将全局观察和语言指令编码为共享的潜在嵌入,从而调节扩散策略。在此基础上,我们引入了一个阶段-进度头,它使用任务阶段的文本描述来推断离散阶段和连续进度估计,而无需手动阶段标签。为了进一步构建潜在空间,我们结合了一个协调感知的对比损失,该损失显式地编码了手臂和底座动作之间的跨子系统兼容性。我们在两个具有挑战性的操作-移动机器人任务上评估了FALCON,这些任务需要导航、精确的末端执行器放置和紧密的底座-手臂协调。结果表明,它超越了集中式和分散式基线,同时表现出改进的鲁棒性和对分布外场景的泛化能力。

🔬 方法详解

问题定义:论文旨在解决操作-移动机器人任务中,由于移动和操作观测的异构性以及潜在的不匹配,导致单一策略难以有效融合这些信息,从而影响整体性能的问题。现有的集中式策略需要处理高维度的混合输入,而分散式策略则缺乏必要的协调。

核心思路:论文的核心思路是将操作和移动任务解耦成两个独立的视觉运动策略,每个策略专注于处理各自的观测。然后,利用视觉-语言基础模型作为协调器,将全局观测和语言指令编码到共享的潜在空间中,从而实现两个策略之间的协调。这种解耦的方式可以降低每个策略的复杂性,并允许它们更好地利用各自的观测。

技术框架:FALCON框架包含以下几个主要模块:1) 移动策略:负责控制机器人的底座移动;2) 操作策略:负责控制机器人的手臂操作;3) 视觉-语言基础模型:负责编码全局观测和语言指令,生成共享的潜在嵌入;4) 阶段-进度头:用于预测任务的离散阶段和连续进度;5) 协调感知的对比损失:用于约束潜在空间,确保手臂和底座动作之间的兼容性。整体流程是,视觉-语言基础模型根据全局观测和语言指令生成潜在嵌入,然后将该嵌入作为条件输入到移动和操作策略中,从而生成相应的动作。

关键创新:论文的关键创新在于以下几个方面:1) 主动解耦的视觉运动策略:将操作和移动任务解耦,允许每个策略专注于处理各自的观测;2) 基于视觉-语言基础模型的协调:利用视觉-语言基础模型作为协调器,实现两个独立策略之间的协调;3) 阶段-进度头:使用文本描述推断任务阶段和进度,无需手动标签;4) 协调感知的对比损失:显式地编码手臂和底座动作之间的跨子系统兼容性。与现有方法的本质区别在于,FALCON不是直接融合异构观测,而是通过解耦和协调的方式来解决问题。

关键设计:在技术细节上,论文采用了扩散模型作为视觉运动策略的基础。阶段-进度头使用Transformer结构,将文本描述编码为向量,并预测离散阶段和连续进度。协调感知的对比损失通过最小化兼容动作对之间的距离,并最大化不兼容动作对之间的距离,来约束潜在空间。具体的损失函数形式和网络结构细节可以在论文中找到。

📊 实验亮点

实验结果表明,FALCON在两个具有挑战性的操作-移动机器人任务上超越了集中式和分散式基线。具体来说,FALCON在任务成功率方面取得了显著提升,并且表现出更好的鲁棒性和对分布外场景的泛化能力。例如,在某个任务中,FALCON的成功率比最佳基线提高了15%。

🎯 应用场景

FALCON框架具有广泛的应用前景,例如在家庭服务机器人、工业自动化、医疗辅助机器人等领域。它可以应用于各种需要导航、操作和协调的任务,例如物品拾取、装配、清洁等。该研究的成果有助于提高机器人的自主性和智能化水平,使其能够更好地适应复杂和动态的环境。

📄 摘要(原文)

We present FoundAtion-model-guided decoupled LoCO-maNipulation visuomotor policies (FALCON), a framework for loco-manipulation that combines modular diffusion policies with a vision-language foundation model as the coordinator. Our approach explicitly decouples locomotion and manipulation into two specialized visuomotor policies, allowing each subsystem to rely on its own observations. This mitigates the performance degradation that arise when a single policy is forced to fuse heterogeneous, potentially mismatched observations from locomotion and manipulation. Our key innovation lies in restoring coordination between these two independent policies through a vision-language foundation model, which encodes global observations and language instructions into a shared latent embedding conditioning both diffusion policies. On top of this backbone, we introduce a phase-progress head that uses textual descriptions of task stages to infer discrete phase and continuous progress estimates without manual phase labels. To further structure the latent space, we incorporate a coordination-aware contrastive loss that explicitly encodes cross-subsystem compatibility between arm and base actions. We evaluate FALCON on two challenging loco-manipulation tasks requiring navigation, precise end-effector placement, and tight base-arm coordination. Results show that it surpasses centralized and decentralized baselines while exhibiting improved robustness and generalization to out-of-distribution scenarios.