TacMamba: A Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA Reasoning

作者: Zhenan Wang, Yanzhe Wang, Meixuan Ren, Peng Li, Yang Liu, Yifei Nie, Limin Long, Yun Ye, Xiaofeng Wang, Zhen Zhu, Huixu Dong

分类: cs.RO

发布日期: 2026-03-02

💡 一句话要点

TacMamba：触觉历史压缩适配器，连接快速触觉反射与慢速视觉推理

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 触觉感知 机器人操作 Mamba架构 序列建模 触觉历史压缩

📋 核心要点

现有方法难以有效融合高频触觉数据与低频视觉策略，Transformer计算成本高，LSTM易遗忘。
TacMamba通过Mamba架构压缩触觉历史，实现高频触觉信息的快速处理和与视觉模型的无缝集成。
实验表明，TacMamba在离散计数和隐式状态切换任务中表现出色，成功率达100%，且满足实时性要求。

📝 摘要（中文）

在视觉信息不明确的操作任务中（例如检测按钮点击），触觉反馈往往是唯一的真值来源。然而，融合触觉数据面临着时空不匹配的挑战：触觉感知需要高频率处理和长时程记忆（系统1），而视觉策略则以低控制频率运行（系统2）。现有的架构难以弥合这一差距：Transformer在高频循环（>100Hz）中计算成本过高，而LSTM则存在长期交互历史中的遗忘问题。本文提出了TacMamba，一种分层架构，可将高带宽触觉反射与低频视觉规划对齐。我们的方法包括三个核心贡献：（1）为灵活集成而设计的定制高频触觉接口；（2）基于Mamba的触觉历史压缩器，可将连续力历史编码为具有O(1)推理延迟（0.45毫秒）的紧凑状态，从而实现与VLA模型的即插即用融合，无需联合预训练；（3）触觉引导的双阶段训练策略，该策略利用时间判别进行自监督表示学习，并利用相位均匀采样来缓解数据稀疏性。在离散计数和隐式状态切换实验中，TacMamba实现了100%的成功率，显著优于仅视觉的pi_0.5基线，同时严格满足硬实时约束。

🔬 方法详解

问题定义：论文旨在解决在视觉信息不明确的操作任务中，如何有效融合高频触觉数据和低频视觉策略的问题。现有方法，如Transformer和LSTM，无法同时满足高频处理、长时程记忆和计算效率的要求，限制了触觉信息在机器人控制中的应用。

核心思路：论文的核心思路是利用Mamba架构构建一个触觉历史压缩器，将高频触觉数据压缩成紧凑的状态表示，从而实现与低频视觉模型的即插即用融合。Mamba架构具有线性复杂度，能够高效处理长序列数据，避免了Transformer的计算瓶颈和LSTM的遗忘问题。

技术框架：TacMamba包含三个主要组成部分：(1) 高频触觉接口，用于采集触觉数据；(2) 基于Mamba的触觉历史压缩器，将触觉数据压缩成紧凑的状态表示；(3) 触觉引导的双阶段训练策略，用于训练触觉历史压缩器。整体流程是：首先，通过触觉接口采集高频触觉数据；然后，利用Mamba压缩器将触觉数据编码成低维状态；最后，将该状态与视觉信息融合，用于控制机器人执行任务。

关键创新：论文最重要的技术创新点在于使用Mamba架构进行触觉历史压缩。与传统的RNN或Transformer相比，Mamba具有线性复杂度，能够高效处理长序列的触觉数据，并且具有更好的长期依赖建模能力。此外，论文提出的触觉引导的双阶段训练策略，能够有效缓解数据稀疏性问题，提高模型的泛化能力。

关键设计：触觉历史压缩器采用Mamba架构，具体参数设置未知。双阶段训练策略包括：(1) 时间判别自监督学习，通过区分不同时间步的触觉数据来学习触觉表示；(2) 相位均匀采样，通过对不同相位的数据进行均匀采样来缓解数据稀疏性。损失函数细节未知。

🖼️ 关键图片

📊 实验亮点

TacMamba在离散计数和隐式状态切换任务中实现了100%的成功率，显著优于仅视觉的pi_0.5基线。此外，TacMamba的推理延迟仅为0.45毫秒，满足硬实时约束，表明其具有很高的实用价值。这些结果表明，TacMamba能够有效融合高频触觉信息和低频视觉信息，提高机器人的操作性能。

🎯 应用场景

TacMamba可应用于各种需要触觉反馈的机器人操作任务，例如按钮点击、物体抓取、装配等。该研究的实际价值在于提高了机器人对环境的感知能力和操作精度，使其能够在视觉信息不明确的情况下完成复杂任务。未来，TacMamba有望应用于医疗机器人、工业自动化等领域。

📄 摘要（原文）

In visually ambiguous manipulation such as detecting button click tactile feedback is often the sole source of ground truth. However, fusing tactile data poses a significant challenge due to a spatiotemporal mismatch: tactile perception requires high-frequency processing with long-horizon memory (System 1), whereas visual policies operate at low control frequencies (System 2). Existing architectures struggle to bridge this gap: Transformers are computationally prohibitive for high-frequency loops (>100Hz), while LSTMs suffer from forgetting over extended interaction histories. In this paper, we introduce TacMamba, a hierarchical architecture that aligns high-bandwidth tactile reflexes with low-frequency visual planning. Our approach comprises three core contributions: (1) a custom high-frequency tactile interface designed for flexible integration; (2) a Mamba-based Tactile History Compressor that encodes continuous force history into a compact state with O(1) inference latency (0.45 ms), enabling plug-and-play fusion with VLA models without joint pre-training and (3) a Tactile-Guided Dual-Stage Training strategy that leverages temporal discrimination for self-supervised representation learning and phase-uniform sampling to mitigate data sparsity. Experiments on discrete counting and implicit state switching demonstrate that TacMamba achieves 100% success rates, significantly outperforming the visual-only pi_0.5 baseline, while strictly satisfying hard real-time constraints.

TacMamba: A Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理