TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models

作者: Chenghao Liu, Jiachen Zhang, Chengxuan Li, Zhimu Zhou, Shixin Wu, Songfang Huang, Huiling Duan

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-08-15 (更新: 2025-11-14)

备注: Accepted to AAAI 2026. Camera-ready version

💡 一句话要点

提出TTF以解决视觉语言动作模型中的时间信息缺失问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作 时间令牌融合 多模态融合 注意力机制 机器人操作

📋 核心要点

现有的VLA模型在逐帧处理时忽视了时间信息，导致对视觉噪声的脆弱性和连续帧一致性的缺失。
论文提出的TTF方法通过智能整合历史与当前视觉表示，利用双维检测和注意力机制增强推理质量。
在LIBERO上，TTF方法相较于基线提升了4.0个百分点，在SimplerEnv和真实机器人任务中分别提升了4.8%和8.7%。

📝 摘要（中文）

视觉语言动作（VLA）模型在每个时间步独立处理视觉输入，忽略了机器人操作任务中固有的时间信息。这种逐帧处理使模型容易受到视觉噪声的影响，同时忽视了操作序列中连续帧之间的显著一致性。我们提出了一种训练无关的方法——时间令牌融合（TTF），智能整合历史和当前的视觉表示，以提高VLA推理质量。该方法结合高效的灰度像素差异分析和基于注意力的语义相关性评估，通过硬融合策略和关键帧锚定实现选择性时间令牌融合，防止错误累积。实验结果显示，在LIBERO、SimplerEnv和真实机器人任务中均有显著提升。

🔬 方法详解

问题定义：本论文旨在解决视觉语言动作模型在逐帧处理时忽略时间信息的问题，导致模型对视觉噪声敏感且无法有效利用连续帧之间的关系。

核心思路：提出的TTF方法通过融合历史和当前的视觉表示，利用双维检测技术，结合注意力机制，选择性地进行时间令牌融合，从而提高推理的准确性和鲁棒性。

技术框架：TTF方法的整体架构包括两个主要模块：一是高效的灰度像素差异分析，二是基于注意力的语义相关性评估。通过这两个模块，模型能够在关键帧上进行锚定，避免错误的累积。

关键创新：TTF的核心创新在于选择性查询矩阵重用策略，这一策略不仅提升了模型性能，还为直接的KQV矩阵重用策略提供了新的研究方向，显示出在加速计算的同时提高任务成功率的潜力。

关键设计：在设计中，TTF采用了硬融合策略和关键帧锚定技术，确保了时间令牌的有效融合，避免了信息的丢失和错误的传播。

📊 实验亮点

实验结果显示，TTF方法在LIBERO数据集上平均提升了4.0个百分点（72.4%对比68.4%基线），在SimplerEnv上实现了4.8%的相对提升，并在真实机器人任务中提升了8.7%。这些结果表明TTF在不同环境下均能有效提高模型性能。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自动化生产线和智能监控等场景。通过增强视觉语言动作模型的推理能力，TTF方法能够提高机器人在复杂环境中的操作效率和准确性，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

Vision-Language-Action (VLA) models process visual inputs independently at each timestep, discarding valuable temporal information inherent in robotic manipulation tasks. This frame-by-frame processing makes models vulnerable to visual noise while ignoring the substantial coherence between consecutive frames in manipulation sequences. We propose Temporal Token Fusion (TTF), a training-free approach that intelligently integrates historical and current visual representations to enhance VLA inference quality. Our method employs dual-dimension detection combining efficient grayscale pixel difference analysis with attention-based semantic relevance assessment, enabling selective temporal token fusion through hard fusion strategies and keyframe anchoring to prevent error accumulation. Comprehensive experiments across LIBERO, SimplerEnv, and real robot tasks demonstrate consistent improvements: 4.0 percentage points average on LIBERO (72.4\% vs 68.4\% baseline), cross-environment validation on SimplerEnv (4.8\% relative improvement), and 8.7\% relative improvement on real robot tasks. Our approach proves model-agnostic, working across OpenVLA and VLA-Cache architectures. Notably, TTF reveals that selective Query matrix reuse in attention mechanisms enhances rather than compromises performance, suggesting promising directions for direct KQV matrix reuse strategies that achieve computational acceleration while improving task success rates.

TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册