HTNav: A Hybrid Navigation Framework with Tiered Structure for Urban Aerial Vision-and-Language Navigation

📄 arXiv: 2604.08883v1 📥 PDF

作者: Chengjie Fan, Cong Pan, Zijian Liu, Ningzhong Liu, Jie Qin

分类: cs.RO, cs.AI

发布日期: 2026-04-10


💡 一句话要点

提出HTNav,一种用于城市空中视觉-语言导航的分层混合导航框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言导航 空中导航 模仿学习 强化学习 分层决策 城市环境 无人机导航

📋 核心要点

  1. 现有空中视觉-语言导航方法在复杂城市环境中泛化性不足,长距离规划性能欠佳,缺乏对空间连续性的理解。
  2. HTNav框架结合模仿学习和强化学习,采用分阶段训练和分层决策机制,提升导航策略的稳定性和环境探索能力。
  3. 在CityNav基准测试中,HTNav在所有场景级别和任务难度上均达到最佳性能,显著提升了导航精度和鲁棒性。

📝 摘要(中文)

受通用视觉-语言导航(VLN)任务的启发,空中VLN因其在物流配送和城市巡检等应用中的重要实用价值而受到广泛关注。然而,现有方法在复杂的城市环境中面临若干挑战,包括对未见场景的泛化能力不足、长距离路径规划性能欠佳以及对空间连续性的理解不够。为了应对这些挑战,我们提出了一种新的协同导航框架HTNav,该框架在混合IL-RL框架内集成了模仿学习(IL)和强化学习(RL)。该框架采用分阶段训练机制,以确保基本导航策略的稳定性,同时增强其环境探索能力。通过集成分层决策机制,实现了宏观层面路径规划和精细动作控制之间的协同交互。此外,还引入了地图表示学习模块,以加深其对开放领域中空间连续性的理解。在CityNav基准测试中,我们的方法在所有场景级别和任务难度上都实现了最先进的性能。实验结果表明,该框架显著提高了复杂城市环境中导航的精度和鲁棒性。

🔬 方法详解

问题定义:论文旨在解决城市环境中空中视觉-语言导航任务的挑战。现有方法在复杂环境中泛化能力差,难以进行长距离路径规划,并且对环境的空间连续性理解不足,导致导航精度和鲁棒性不高。

核心思路:论文的核心思路是结合模仿学习(IL)和强化学习(RL)的优势,构建一个混合导航框架。模仿学习用于快速学习基本的导航策略,而强化学习则用于增强环境探索能力和优化长期决策。通过分层决策机制,实现宏观路径规划和微观动作控制的协同,从而提高导航效率和准确性。

技术框架:HTNav框架包含以下主要模块:1) 地图表示学习模块,用于学习环境的空间连续性表示;2) 分层决策模块,包含宏观路径规划器和微观动作控制器;3) 混合IL-RL训练框架,采用分阶段训练策略,先使用IL进行预训练,然后使用RL进行微调。整体流程是:输入视觉信息和语言指令,地图表示学习模块提取环境特征,宏观路径规划器生成粗略路径,微观动作控制器根据当前状态和路径规划结果选择下一步动作,不断迭代直至到达目标。

关键创新:该论文的关键创新在于提出了一个分层的混合导航框架,将模仿学习和强化学习相结合,并引入了地图表示学习模块。这种框架能够有效地解决复杂城市环境中空中视觉-语言导航的挑战,提高导航的精度和鲁棒性。与现有方法相比,HTNav能够更好地理解环境的空间连续性,并进行更有效的长距离路径规划。

关键设计:分阶段训练策略是关键设计之一,首先使用模仿学习训练一个基本的导航策略,然后使用强化学习对该策略进行微调,以提高其环境探索能力。分层决策机制也是一个关键设计,宏观路径规划器负责生成粗略的路径,而微观动作控制器负责根据当前状态和路径规划结果选择下一步动作。损失函数的设计也至关重要,需要平衡模仿学习和强化学习的目标,并考虑导航的精度和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HTNav在CityNav基准测试中取得了state-of-the-art的性能,在所有场景级别和任务难度上均优于现有方法。实验结果表明,HTNav显著提高了复杂城市环境中导航的精度和鲁棒性,验证了该框架的有效性。具体的性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于物流配送、城市巡检、灾害救援等领域。例如,无人机可以根据语言指令,在复杂的城市环境中自主导航,完成包裹的精准投递。在城市巡检方面,无人机可以自主巡视城市基础设施,及时发现安全隐患。在灾害救援中,无人机可以快速到达灾害现场,进行侦察和物资投放。

📄 摘要(原文)

Inspired by the general Vision-and-Language Navigation (VLN) task, aerial VLN has attracted widespread attention, owing to its significant practical value in applications such as logistics delivery and urban inspection. However, existing methods face several challenges in complex urban environments, including insufficient generalization to unseen scenes, suboptimal performance in long-range path planning, and inadequate understanding of spatial continuity. To address these challenges, we propose HTNav, a new collaborative navigation framework that integrates Imitation Learning (IL) and Reinforcement Learning (RL) within a hybrid IL-RL framework. This framework adopts a staged training mechanism to ensure the stability of the basic navigation strategy while enhancing its environmental exploration capability. By integrating a tiered decision-making mechanism, it achieves collaborative interaction between macro-level path planning and fine-grained action control. Furthermore, a map representation learning module is introduced to deepen its understanding of spatial continuity in open domains. On the CityNav benchmark, our method achieves state-of-the-art performance across all scene levels and task difficulties. Experimental results demonstrate that this framework significantly improves navigation precision and robustness in complex urban environments.