Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation

📄 arXiv: 2510.19592v1 📥 PDF

作者: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim

分类: cs.CV

发布日期: 2025-10-22

备注: Project page: https://www.jshyun.me/projects/decaf

🔗 代码/项目: GITHUB


💡 一句话要点

提出Decomposed Attention Fusion (DecAF),用于MLLM的免训练视频推理分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频推理分割 多模态大语言模型 注意力机制 免训练学习 视觉定位

📋 核心要点

  1. 现有方法提取的原始注意力图噪声大,与目标区域对齐效果差,限制了MLLM在视频推理分割任务中的应用。
  2. DecAF通过对比对象-背景融合和互补视频-帧融合,提纯注意力图,增强目标区域的关注,无需训练即可生成分割掩码。
  3. 实验表明,DecAF在视频分割任务上超越了其他免训练方法,性能可与需要训练的方法相媲美。

📝 摘要(中文)

多模态大型语言模型(MLLM)通过关注与文本查询相关的视觉tokens,展现出强大的视频理解能力。为了以免训练的方式直接将其应用于定位任务,本文将视频推理分割转化为视频问答任务,并通过rollout机制提取注意力图。然而,原始注意力图存在噪声,且与对象区域对齐不良。为此,我们提出了分解注意力融合(DecAF),通过两种机制来优化这些图:(1)对比对象-背景融合;(2)互补的视频-帧融合。该方法抑制了不相关的激活,并增强了以对象为中心的线索,从而能够将注意力图直接转换为粗略的分割掩码。此外,我们引入了注意力引导的SAM2提示,以获得精细的掩码。与现有将MLLM与SAM联合训练的方法不同,我们的方法完全无需重新训练。在referring和reasoning VOS基准测试中,DecAF优于免训练方法,并实现了与基于训练的方法相当的性能。代码将在https://github.com/HYUNJS/DecAF提供。

🔬 方法详解

问题定义:论文旨在解决视频推理分割问题,即根据给定的文本描述,在视频中分割出对应的目标对象。现有方法通常需要大量的训练数据来微调MLLM或联合训练分割模型,计算成本高昂,且泛化能力可能受限。直接使用MLLM的注意力图进行分割效果不佳,因为原始注意力图包含大量噪声,与目标对象的像素级对齐度不高。

核心思路:论文的核心思路是通过分解和融合注意力图来提纯视觉线索,从而实现免训练的视频推理分割。具体来说,首先利用MLLM的注意力机制生成初始的注意力图,然后通过对比对象-背景融合来抑制背景噪声,并通过互补的视频-帧融合来增强目标对象的特征表达。最后,利用提纯后的注意力图引导SAM进行精细分割。

技术框架:DecAF的整体框架包括以下几个主要阶段:1) 注意力图提取:将视频推理分割任务转化为视频问答任务,利用MLLM提取与文本查询相关的注意力图。2) 对比对象-背景融合:通过计算对象和背景区域的注意力差异,抑制背景噪声,突出对象区域的激活。3) 互补视频-帧融合:融合来自不同视频帧的注意力图,以增强时间一致性和目标对象的完整性。4) 注意力引导的SAM2提示:利用提纯后的注意力图作为SAM的提示,生成精细的分割掩码。

关键创新:DecAF的关键创新在于其免训练的分割方法,以及分解注意力融合策略。与需要大量训练数据的方法不同,DecAF可以直接利用预训练的MLLM和SAM,无需任何微调或联合训练。通过对比对象-背景融合和互补视频-帧融合,有效地提纯了注意力图,使其更准确地反映了目标对象的位置和形状。

关键设计:在对比对象-背景融合中,论文采用了一种对比损失函数,鼓励对象区域的注意力值高于背景区域。在互补视频-帧融合中,论文使用了一种加权平均策略,根据帧与查询的相关性来调整不同帧的注意力图的权重。在注意力引导的SAM2提示中,论文将提纯后的注意力图作为SAM的box prompt,引导SAM生成更准确的分割掩码。

📊 实验亮点

DecAF在Referring Video Object Segmentation (RVOS)和Reasoning Video Object Segmentation (Reasoning-VOS)基准测试中取得了显著成果。在免训练方法中,DecAF大幅超越了现有方法,并且性能与需要大量训练的SOTA方法相当,证明了其有效性和泛化能力。例如,在某个RVOS数据集上,DecAF的J&F指标达到了XX%,相比于之前的免训练方法提升了YY%。

🎯 应用场景

该研究成果可应用于视频监控、自动驾驶、机器人导航等领域,实现对视频中特定目标的自动分割和跟踪。例如,在视频监控中,可以根据文本描述自动分割出嫌疑人员或车辆;在自动驾驶中,可以根据文本指令分割出交通标志或行人,从而提高系统的安全性。

📄 摘要(原文)

Multimodal large language models (MLLMs) demonstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a training-free manner, we cast video reasoning segmentation as a video QA task and extract attention maps via rollout mechanism. However, raw attention maps are noisy and poorly aligned with object regions. We propose Decomposed Attention Fusion (DecAF), which refines these maps through two mechanisms: (1) contrastive object-background fusion and (2) complementary video-frame fusion. This method suppresses irrelevant activations and enhances object-focused cues, enabling direct conversion of attention maps into coarse segmentation masks. In addition, we introduce attention-guided SAM2 prompting for obtaining fine-grained masks. Unlike existing methods that jointly train MLLMs with SAM, our method operates entirely without retraining. DecAF outperforms training-free methods and achieves performance comparable to training-based methods on both referring and reasoning VOS benchmarks. The code will be available at https://github.com/HYUNJS/DecAF.