Efficient-VLN: A Training-Efficient Vision-Language Navigation Model
作者: Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang
分类: cs.CV
发布日期: 2025-12-11
💡 一句话要点
Efficient-VLN:一种训练高效的视觉-语言导航模型,显著降低训练开销。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 视觉语言导航 多模态学习 高效训练 记忆机制 探索策略
📋 核心要点
- 现有VLN方法在处理长序列历史观测时计算开销大,且DAgger训练中探索效率与轨迹长度存在权衡。
- Efficient-VLN通过渐进式记忆和可学习递归记忆减少token处理负担,并使用动态混合策略平衡探索效率。
- Efficient-VLN在R2R-CE和RxR-CE上取得SOTA性能,且训练时间大幅缩短至282 H800 GPU小时。
📝 摘要(中文)
多模态大型语言模型(MLLMs)在视觉-语言导航(VLN)中展现出巨大的潜力。然而,其巨大的训练开销严重阻碍了实际应用。我们发现导致开销的两个关键问题:(1)处理长时程历史观测作为大量token序列带来的二次计算负担,以及(2)DAgger中的探索效率权衡,即收集agent探索轨迹的数据聚合过程。更多的探索虽然能产生有效的错误恢复轨迹以处理测试时分布偏移,但代价是训练和推理的轨迹长度更长。为了解决这些挑战,我们提出了Efficient-VLN,一种训练高效的VLN模型。具体来说,为了减轻token处理负担,我们设计了两种高效的记忆机制:一种动态地为最近的观测分配更多token的渐进式记忆,以及一种利用可学习token的键值缓存作为记忆状态的可学习递归记忆。此外,我们引入了一种动态混合策略来平衡探索效率的权衡。大量实验表明,Efficient-VLN在R2R-CE(64.2% SR)和RxR-CE(67.0% SR)上取得了最先进的性能。关键的是,我们的模型仅消耗282 H800 GPU小时,与最先进的方法相比,训练开销显著降低。
🔬 方法详解
问题定义:现有的视觉-语言导航(VLN)模型,特别是基于多模态大型语言模型(MLLMs)的模型,在训练时面临着巨大的计算开销。主要痛点在于处理长时程的历史观测数据时,需要处理大量的token序列,导致计算复杂度呈二次方增长。此外,在利用DAgger算法进行训练时,需要平衡探索的充分性和训练效率,即更多的探索虽然能提升模型的泛化能力,但会显著增加训练轨迹的长度,从而增加计算负担。
核心思路:Efficient-VLN的核心思路是通过设计高效的记忆机制和动态的探索策略来降低训练开销。具体来说,它旨在减少需要处理的token数量,并优化DAgger训练过程中的探索策略,从而在保证模型性能的同时,显著降低训练所需的计算资源。
技术框架:Efficient-VLN的整体框架包括视觉编码器、语言编码器、记忆模块和动作预测模块。视觉编码器负责提取环境图像的视觉特征,语言编码器负责处理导航指令。记忆模块用于存储和更新历史观测信息,并将其与当前观测信息融合。动作预测模块根据融合后的信息预测下一步的导航动作。该框架的关键在于记忆模块的设计,它采用了渐进式记忆和可学习递归记忆两种机制。
关键创新:Efficient-VLN最重要的技术创新在于其高效的记忆机制。渐进式记忆动态地为最近的观测分配更多的token,从而更关注当前环境信息。可学习递归记忆则利用可学习的token作为记忆状态,通过键值缓存的方式存储历史信息,避免了对所有历史观测进行重复处理。此外,动态混合策略能够根据训练的进展自适应地调整探索的程度,从而平衡探索效率和模型性能。
关键设计:渐进式记忆通过动态调整token分配比例来关注最近的观测。可学习递归记忆使用少量可学习的token来表示历史状态,并通过注意力机制将当前观测信息与历史状态融合。动态混合策略使用一个可学习的权重来平衡专家策略和探索策略,该权重根据训练的进展进行调整。损失函数包括导航损失和辅助损失,导航损失用于优化动作预测,辅助损失用于优化记忆模块的学习。
📊 实验亮点
Efficient-VLN在R2R-CE上取得了64.2%的SR,在RxR-CE上取得了67.0%的SR,达到了state-of-the-art的性能。更重要的是,该模型仅消耗282 H800 GPU小时进行训练,相比于其他SOTA方法,训练开销显著降低,体现了其高效性。
🎯 应用场景
Efficient-VLN可应用于机器人导航、自动驾驶、虚拟现实等领域。通过降低训练成本,该模型能够更容易地部署到资源受限的平台上,并加速相关技术的研发和应用。未来,该研究有望推动更智能、更高效的导航系统发展,提升用户体验。
📄 摘要(原文)
Multimodal large language models (MLLMs) have shown promising potential in Vision-Language Navigation (VLN). However, their practical development is severely hindered by the substantial training overhead. We recognize two key issues that contribute to the overhead: (1) the quadratic computational burden from processing long-horizon historical observations as massive sequences of tokens, and (2) the exploration-efficiency trade-off in DAgger, i.e., a data aggregation process of collecting agent-explored trajectories. While more exploration yields effective error-recovery trajectories for handling test-time distribution shifts, it comes at the cost of longer trajectory lengths for both training and inference. To address these challenges, we propose Efficient-VLN, a training-efficient VLN model. Specifically, to mitigate the token processing burden, we design two efficient memory mechanisms: a progressive memory that dynamically allocates more tokens to recent observations, and a learnable recursive memory that utilizes the key-value cache of learnable tokens as the memory state. Moreover, we introduce a dynamic mixed policy to balance the exploration-efficiency trade-off. Extensive experiments show that Efficient-VLN achieves state-of-the-art performance on R2R-CE (64.2% SR) and RxR-CE (67.0% SR). Critically, our model consumes merely 282 H800 GPU hours, demonstrating a dramatic reduction in training overhead compared to state-of-the-art methods.