CoFL: Continuous Flow Fields for Language-Conditioned Navigation

📄 arXiv: 2603.02854v1 📥 PDF

作者: Haokun Liu, Zhaoqi Ma, Yicheng Chen, Masaki Kitagawa, Wentao Zhang, Jinjie Li, Moju Zhao

分类: cs.RO, cs.AI

发布日期: 2026-03-03

备注: 20 pages, 11 figures


💡 一句话要点

CoFL:提出基于连续流场的语言条件导航方法,实现高效端到端控制。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言条件导航 连续流场 端到端学习 机器人导航 视觉语言模型

📋 核心要点

  1. 现有语言条件导航方法依赖脆弱的模块化组件或代价高昂的动作序列生成,限制了其性能和泛化能力。
  2. CoFL直接将BEV观测和语言指令映射到连续流场,通过数值积分生成平滑轨迹,实现端到端导航。
  3. CoFL在模拟和真实环境中均表现出色,显著优于传统方法,并在真实世界零样本实验中保持高成功率。

📝 摘要(中文)

本文提出了一种名为CoFL的端到端策略,用于语言条件导航,该策略直接将鸟瞰图(BEV)观测和语言指令映射到连续流场以进行导航。CoFL不预测离散动作token或通过迭代去噪采样动作块,而是输出可在任意2D投影位置查询的瞬时速度。通过对预测场进行数值积分获得轨迹,从而产生在闭环执行下保持反应性的平滑运动。为了实现大规模训练,我们构建了一个包含超过50万个BEV图像-指令对的数据集,每个数据集都通过程序化方式标注了从基于Matterport3D和ScanNet构建的BEV语义地图导出的流场和轨迹。通过在混合分布上进行训练,CoFL在严格未见场景中显著优于基于模块化视觉-语言模型(VLM)的规划器和生成策略基线。最后,我们在具有多个布局的真实世界实验中,使用顶置BEV观测以零样本方式部署CoFL,保持了可靠的闭环控制和高成功率。

🔬 方法详解

问题定义:现有语言条件导航方法通常依赖于模块化的组件,例如视觉-语言模型(VLM)和运动规划器,这些组件容易出错且难以优化。另一种方法是生成动作序列,但这种方法计算成本高昂,并且可能导致不平滑的运动。因此,需要一种能够直接、高效地将语言指令和视觉输入映射到导航策略的方法。

核心思路:CoFL的核心思路是预测一个连续的流场,该流场表示在每个位置的瞬时速度。通过对该流场进行数值积分,可以得到平滑的导航轨迹。这种方法避免了离散动作预测或动作序列生成,从而提高了效率和鲁棒性。此外,连续流场能够更好地适应环境变化,并允许代理在闭环控制下做出反应。

技术框架:CoFL的整体框架包括一个编码器,用于将BEV图像和语言指令编码成特征向量;一个流场预测器,用于将特征向量映射到连续流场;以及一个轨迹积分器,用于从流场中生成导航轨迹。具体来说,BEV图像通过卷积神经网络进行编码,语言指令通过Transformer模型进行编码。然后,将两个特征向量融合,并输入到流场预测器中。流场预测器输出一个二维向量场,表示每个位置的瞬时速度。最后,使用数值积分方法(例如欧拉方法或龙格-库塔方法)对流场进行积分,得到导航轨迹。

关键创新:CoFL的关键创新在于使用连续流场来表示导航策略。与传统的离散动作预测或动作序列生成方法相比,连续流场具有以下优点:1) 效率更高,因为它避免了离散动作的采样或生成;2) 鲁棒性更强,因为它能够更好地适应环境变化;3) 运动更平滑,因为它通过数值积分生成轨迹。此外,CoFL还提出了一个大规模的BEV图像-指令对数据集,用于训练流场预测器。

关键设计:CoFL的关键设计包括:1) 使用卷积神经网络和Transformer模型来编码BEV图像和语言指令;2) 使用一个全卷积网络作为流场预测器,以预测每个位置的瞬时速度;3) 使用欧拉方法或龙格-库塔方法对流场进行数值积分,以生成导航轨迹;4) 使用L1损失或L2损失来训练流场预测器,以最小化预测流场与真实流场之间的差异;5) 使用数据增强技术,例如随机旋转、平移和缩放,来提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoFL在模拟环境中显著优于基于VLM的模块化规划器和生成策略基线。在真实世界的零样本实验中,CoFL在多个布局上保持了可靠的闭环控制和高成功率,验证了其泛化能力和实用性。具体而言,CoFL在未见过的场景中实现了显著的性能提升,表明其能够有效地学习语言指令和视觉输入之间的关系。

🎯 应用场景

CoFL具有广泛的应用前景,包括室内机器人导航、自动驾驶、虚拟现实和增强现实等领域。它可以用于开发更智能、更高效、更鲁棒的导航系统,从而提高机器人的自主性和适应性。此外,CoFL还可以用于创建更逼真的虚拟环境,并为用户提供更沉浸式的体验。未来的研究方向包括探索更复杂的流场预测模型、使用更先进的数值积分方法以及将CoFL应用于更具挑战性的导航任务。

📄 摘要(原文)

Language-conditioned navigation pipelines often rely on brittle modular components or costly action-sequence generation. To address these limitations, we present CoFL, an end-to-end policy that directly maps a bird's-eye view (BEV) observation and a language instruction to a continuous flow field for navigation. Instead of predicting discrete action tokens or sampling action chunks via iterative denoising, CoFL outputs instantaneous velocities that can be queried at arbitrary 2D projected locations. Trajectories are obtained by numerical integration of the predicted field, producing smooth motion that remains reactive under closed-loop execution. To enable large-scale training, we build a dataset of over 500k BEV image-instruction pairs, each procedurally annotated with a flow field and a trajectory derived from BEV semantic maps built on Matterport3D and ScanNet. By training on a mixed distribution, CoFL significantly outperforms modular Vision-Language Model (VLM)-based planners and generative policy baselines on strictly unseen scenes. Finally, we deploy CoFL zero-shot in real-world experiments with overhead BEV observations across multiple layouts, maintaining reliable closed-loop control and a high success rate.