History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
作者: Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou, Christopher Rasmussen
分类: cs.RO
发布日期: 2026-03-06
💡 一句话要点
提出一种免训练的时空视觉Token剪枝框架,用于高效的视觉-语言导航。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言导航 Token剪枝 时空压缩 机器人导航 免训练 模型优化 具身智能
📋 核心要点
- 现有的视觉-语言-动作模型在视觉-语言导航任务中计算成本高昂,导致延迟,限制了其在实际机器人系统中的实时部署。
- 该论文提出一种免训练的时空视觉token剪枝框架,通过空间token选择和时空压缩,减少冗余计算,提高推理效率。
- 实验结果表明,该方法在保持导航精度的前提下,显著优于现有的剪枝策略,并在真实机器人平台上验证了其有效性。
📝 摘要(中文)
视觉-语言导航(VLN)使机器人能够在视觉环境中遵循自然语言指令,是具身机器人系统的关键能力。最近的视觉-语言-动作(VLA)模型表现出强大的导航性能,但其高计算成本导致延迟,限制了实时部署。我们提出了一种免训练的时空视觉token剪枝框架,专门用于基于VLA的VLN。我们将空间token选择应用于当前视图,同时对历史记忆进行时空压缩,从而实现高效的长程推理,同时减少冗余计算。利用基于注意力的token重要性和查询引导的时空过滤,所提出的方法在不重新训练或修改预训练模型的情况下,保留了与导航相关的信息,从而允许即插即用集成到现有的VLA系统中。通过在标准VLN基准上的实验,我们证实了我们的方法明显优于现有的剪枝策略。它成功地在极端剪枝场景下保持了卓越的导航精度,同时保持了极具竞争力的推理效率。在Unitree Go2四足机器人上的真实部署进一步验证了在实际机器人约束下可靠且低延迟的指令跟随导航。我们希望这项工作有助于弥合大规模多模态建模与机器人导航系统中高效、实时的具身部署之间的差距。
🔬 方法详解
问题定义:论文旨在解决视觉-语言导航(VLN)任务中,现有视觉-语言-动作(VLA)模型计算量大、推理速度慢的问题。这些模型虽然在导航性能上表现出色,但其高昂的计算成本阻碍了它们在实际机器人系统中的实时部署。现有方法缺乏在保持导航精度的前提下有效降低计算复杂度的方案。
核心思路:论文的核心思路是通过对视觉token进行时空剪枝,减少模型需要处理的信息量,从而降低计算复杂度并提高推理速度。该方法无需重新训练模型,而是直接在预训练模型上进行token选择和压缩,保证了即插即用的特性。
技术框架:该框架包含两个主要部分:空间token选择和时空压缩。空间token选择针对当前视图,利用基于注意力的token重要性来选择最具代表性的token。时空压缩则针对历史记忆,通过查询引导的时空过滤,保留与当前导航任务最相关的历史信息。整个过程无需训练,可以无缝集成到现有的VLA系统中。
关键创新:该方法的关键创新在于提出了一种免训练的时空token剪枝策略,能够同时对当前视图和历史记忆进行压缩,从而在保证导航精度的前提下显著降低计算复杂度。与传统的剪枝方法相比,该方法不需要重新训练模型,具有更高的灵活性和实用性。
关键设计:空间token选择利用注意力机制计算每个token的重要性得分,并根据得分选择top-k个token。时空压缩则使用查询向量(例如,当前指令或目标位置)来引导历史信息的过滤,只保留与当前任务相关的历史token。具体的参数设置和网络结构细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该方法在标准VLN基准测试中显著优于现有的剪枝策略,在极端剪枝场景下仍能保持卓越的导航精度。此外,在Unitree Go2四足机器人上的真实部署验证了该方法在实际机器人约束下的有效性,实现了可靠且低延迟的指令跟随导航。具体的性能提升数据未在摘要中给出,属于未知信息。
🎯 应用场景
该研究成果可广泛应用于机器人导航领域,尤其是在需要实时响应和低延迟的场景中,例如服务机器人、搜救机器人和自动驾驶等。通过降低计算成本,该方法能够使更复杂的视觉-语言模型在资源受限的平台上部署,从而提高机器人的自主性和适应性。未来,该技术有望促进机器人技术在更多实际场景中的应用。
📄 摘要(原文)
Vision-Language Navigation (VLN) enables robots to follow natural-language instructions in visually grounded environments, serving as a key capability for embodied robotic systems. Recent Vision-Language-Action (VLA) models have demonstrated strong navigation performance, but their high computational cost introduces latency that limits real-time deployment. We propose a training-free spatio-temporal vision token pruning framework tailored to VLA-based VLN. We apply spatial token selection to the current view, alongside spatio-temporal compression for historical memories, enabling efficient long-horizon inference while reducing redundant computation. Leveraging attention-based token importance and query-guided spatio-temporal filtering, the proposed approach preserves navigation-relevant information without retraining or modifying pretrained models, allowing plug-and-play integration into existing VLA systems. Through experiments on standard VLN benchmarks, we confirm that our method significantly outperforms existing pruning strategies. It successfully preserves superior navigation accuracy under extreme pruning scenarios, all while maintaining the highly competitive inference efficiency. Real-world deployment on a Unitree Go2 quadruped robot further validates reliable and low-latency instruction-following navigation under practical robotic constraints. We hope this work helps bridge the gap between large-scale multimodal modeling and efficient, real-time embodied deployment in robotic navigation systems.