TacMamba: A Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA Reasoning
作者: Zhenan Wang, Yanzhe Wang, Meixuan Ren, Peng Li, Yang Liu, Yifei Nie, Limin Long, Yun Ye, Xiaofeng Wang, Zhen Zhu, Huixu Dong
分类: cs.RO
发布日期: 2026-03-02
💡 一句话要点
TacMamba:触觉历史压缩适配器,连接快速触觉反射与慢速视觉推理
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 触觉感知 机器人操作 Mamba架构 序列建模 触觉历史压缩
📋 核心要点
- 现有方法难以有效融合高频触觉数据与低频视觉策略,Transformer计算成本高,LSTM易遗忘。
- TacMamba通过Mamba架构压缩触觉历史,实现高频触觉信息的快速处理和与视觉模型的无缝集成。
- 实验表明,TacMamba在离散计数和隐式状态切换任务中表现出色,成功率达100%,且满足实时性要求。
📝 摘要(中文)
在视觉信息不明确的操作任务中(例如检测按钮点击),触觉反馈往往是唯一的真值来源。然而,融合触觉数据面临着时空不匹配的挑战:触觉感知需要高频率处理和长时程记忆(系统1),而视觉策略则以低控制频率运行(系统2)。现有的架构难以弥合这一差距:Transformer在高频循环(>100Hz)中计算成本过高,而LSTM则存在长期交互历史中的遗忘问题。本文提出了TacMamba,一种分层架构,可将高带宽触觉反射与低频视觉规划对齐。我们的方法包括三个核心贡献:(1)为灵活集成而设计的定制高频触觉接口;(2)基于Mamba的触觉历史压缩器,可将连续力历史编码为具有O(1)推理延迟(0.45毫秒)的紧凑状态,从而实现与VLA模型的即插即用融合,无需联合预训练;(3)触觉引导的双阶段训练策略,该策略利用时间判别进行自监督表示学习,并利用相位均匀采样来缓解数据稀疏性。在离散计数和隐式状态切换实验中,TacMamba实现了100%的成功率,显著优于仅视觉的pi_0.5基线,同时严格满足硬实时约束。
🔬 方法详解
问题定义:论文旨在解决在视觉信息不明确的操作任务中,如何有效融合高频触觉数据和低频视觉策略的问题。现有方法,如Transformer和LSTM,无法同时满足高频处理、长时程记忆和计算效率的要求,限制了触觉信息在机器人控制中的应用。
核心思路:论文的核心思路是利用Mamba架构构建一个触觉历史压缩器,将高频触觉数据压缩成紧凑的状态表示,从而实现与低频视觉模型的即插即用融合。Mamba架构具有线性复杂度,能够高效处理长序列数据,避免了Transformer的计算瓶颈和LSTM的遗忘问题。
技术框架:TacMamba包含三个主要组成部分:(1) 高频触觉接口,用于采集触觉数据;(2) 基于Mamba的触觉历史压缩器,将触觉数据压缩成紧凑的状态表示;(3) 触觉引导的双阶段训练策略,用于训练触觉历史压缩器。整体流程是:首先,通过触觉接口采集高频触觉数据;然后,利用Mamba压缩器将触觉数据编码成低维状态;最后,将该状态与视觉信息融合,用于控制机器人执行任务。
关键创新:论文最重要的技术创新点在于使用Mamba架构进行触觉历史压缩。与传统的RNN或Transformer相比,Mamba具有线性复杂度,能够高效处理长序列的触觉数据,并且具有更好的长期依赖建模能力。此外,论文提出的触觉引导的双阶段训练策略,能够有效缓解数据稀疏性问题,提高模型的泛化能力。
关键设计:触觉历史压缩器采用Mamba架构,具体参数设置未知。双阶段训练策略包括:(1) 时间判别自监督学习,通过区分不同时间步的触觉数据来学习触觉表示;(2) 相位均匀采样,通过对不同相位的数据进行均匀采样来缓解数据稀疏性。损失函数细节未知。
🖼️ 关键图片
📊 实验亮点
TacMamba在离散计数和隐式状态切换任务中实现了100%的成功率,显著优于仅视觉的pi_0.5基线。此外,TacMamba的推理延迟仅为0.45毫秒,满足硬实时约束,表明其具有很高的实用价值。这些结果表明,TacMamba能够有效融合高频触觉信息和低频视觉信息,提高机器人的操作性能。
🎯 应用场景
TacMamba可应用于各种需要触觉反馈的机器人操作任务,例如按钮点击、物体抓取、装配等。该研究的实际价值在于提高了机器人对环境的感知能力和操作精度,使其能够在视觉信息不明确的情况下完成复杂任务。未来,TacMamba有望应用于医疗机器人、工业自动化等领域。
📄 摘要(原文)
In visually ambiguous manipulation such as detecting button click tactile feedback is often the sole source of ground truth. However, fusing tactile data poses a significant challenge due to a spatiotemporal mismatch: tactile perception requires high-frequency processing with long-horizon memory (System 1), whereas visual policies operate at low control frequencies (System 2). Existing architectures struggle to bridge this gap: Transformers are computationally prohibitive for high-frequency loops (>100Hz), while LSTMs suffer from forgetting over extended interaction histories. In this paper, we introduce TacMamba, a hierarchical architecture that aligns high-bandwidth tactile reflexes with low-frequency visual planning. Our approach comprises three core contributions: (1) a custom high-frequency tactile interface designed for flexible integration; (2) a Mamba-based Tactile History Compressor that encodes continuous force history into a compact state with O(1) inference latency (0.45 ms), enabling plug-and-play fusion with VLA models without joint pre-training and (3) a Tactile-Guided Dual-Stage Training strategy that leverages temporal discrimination for self-supervised representation learning and phase-uniform sampling to mitigate data sparsity. Experiments on discrete counting and implicit state switching demonstrate that TacMamba achieves 100% success rates, significantly outperforming the visual-only pi_0.5 baseline, while strictly satisfying hard real-time constraints.