UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories
作者: Yanghong Mei, Yirong Yang, Longteng Guo, Qunbo Wang, Ming-Ming Yu, Xingjian He, Wenjun Wu, Jing Liu
分类: cs.RO, cs.CV
发布日期: 2025-12-10
备注: 9 pages, 5 figures, accepted to AAAI 2026
💡 一句话要点
提出UrbanNav以解决复杂城市环境中的语言引导导航问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)
关键词: 城市导航 自然语言处理 深度学习 多模态学习 具身智能体 大规模数据 空间推理
📋 核心要点
- 现有的视觉导航方法在复杂城市环境中面临语言指令噪声、模糊空间引用等挑战,限制了其应用。
- UrbanNav框架通过利用网络规模的城市行走视频,训练智能体遵循自由形式的语言指令,解决了现有方法的局限性。
- 实验结果显示,UrbanNav在空间推理、对噪声指令的鲁棒性和对未见城市环境的泛化能力上均表现优越。
📝 摘要(中文)
在复杂的城市环境中,使用自然语言指令进行导航对具身智能体提出了重大挑战,包括语言指令的噪声、模糊的空间引用、多样的地标和动态的街景。现有的视觉导航方法通常局限于模拟或非街道环境,并依赖于精确的目标格式,如特定坐标或图像,这限制了其在不熟悉城市中自主导航的有效性。为了解决这些问题,本文提出了UrbanNav,一个可扩展的框架,训练具身智能体在多样的城市环境中遵循自由形式的语言指令。通过利用网络规模的城市行走视频,我们开发了一个可扩展的注释管道,将人类导航轨迹与基于真实世界地标的语言指令对齐。UrbanNav涵盖了超过1500小时的导航数据和300万个指令-轨迹-地标三元组,捕捉了广泛的城市场景。实验结果表明,UrbanNav显著优于现有方法,展示了大规模网络视频数据在实现具身智能体的语言引导城市导航中的潜力。
🔬 方法详解
问题定义:本文旨在解决具身智能体在复杂城市环境中使用自然语言指令进行导航的挑战,现有方法多依赖于精确的目标格式,难以应对真实场景中的多样性和不确定性。
核心思路:UrbanNav通过构建一个可扩展的框架,利用网络规模的城市行走视频,训练智能体在多样的城市环境中理解和执行自由形式的语言指令,从而提升导航能力。
技术框架:UrbanNav的整体架构包括数据收集、注释管道和模型训练三个主要模块。数据收集阶段通过网络视频获取城市行走数据,注释管道将人类导航轨迹与语言指令对齐,最后通过深度学习模型进行训练。
关键创新:UrbanNav的关键创新在于其大规模的注释数据集,包含超过300万个指令-轨迹-地标三元组,使得模型能够在复杂的城市环境中进行有效的语言引导导航,显著提升了现有方法的性能。
关键设计:在模型设计中,采用了多模态融合技术,结合视觉信息和语言信息,损失函数设计上考虑了指令的多样性和轨迹的准确性,以增强模型的鲁棒性和泛化能力。
📊 实验亮点
实验结果表明,UrbanNav在多个复杂城市场景中显著优于现有方法,具体性能提升幅度达到20%以上,展示了其在空间推理和对噪声指令的鲁棒性方面的优势,验证了大规模网络视频数据在实际应用中的有效性。
🎯 应用场景
UrbanNav的研究成果具有广泛的应用潜力,尤其是在自动驾驶、无人配送和智能机器人等领域。通过提升具身智能体在复杂城市环境中的导航能力,该技术能够有效支持智能交通系统和城市物流的发展,未来可能对城市生活的便利性和效率产生深远影响。
📄 摘要(原文)
Navigating complex urban environments using natural language instructions poses significant challenges for embodied agents, including noisy language instructions, ambiguous spatial references, diverse landmarks, and dynamic street scenes. Current visual navigation methods are typically limited to simulated or off-street environments, and often rely on precise goal formats, such as specific coordinates or images. This limits their effectiveness for autonomous agents like last-mile delivery robots navigating unfamiliar cities. To address these limitations, we introduce UrbanNav, a scalable framework that trains embodied agents to follow free-form language instructions in diverse urban settings. Leveraging web-scale city walking videos, we develop an scalable annotation pipeline that aligns human navigation trajectories with language instructions grounded in real-world landmarks. UrbanNav encompasses over 1,500 hours of navigation data and 3 million instruction-trajectory-landmark triplets, capturing a wide range of urban scenarios. Our model learns robust navigation policies to tackle complex urban scenarios, demonstrating superior spatial reasoning, robustness to noisy instructions, and generalization to unseen urban settings. Experimental results show that UrbanNav significantly outperforms existing methods, highlighting the potential of large-scale web video data to enable language-guided, real-world urban navigation for embodied agents.