Training-Free Spatio-temporal Decoupled Reasoning Video Segmentation with Adaptive Object Memory

📄 arXiv: 2603.01545v1 📥 PDF

作者: Zhengtong Zhu, Jiaqing Fan, Zhixuan Liu, Fanzhang Li

分类: cs.CV

发布日期: 2026-03-02

备注: Accept by AAAI2026


💡 一句话要点

提出SDAM:一种免训练的时空解耦推理视频分割方法,提升分割稳定性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频分割 时空解耦 免训练学习 自适应记忆 多模态推理

📋 核心要点

  1. 现有ReasonVOS方法依赖微调MLLM,计算资源需求大,且时空信息耦合影响时间稳定性。
  2. SDAM通过自适应对象记忆和时空解耦,仅用预训练模型实现免训练的推理视频分割。
  3. 实验表明,SDAM在多个数据集上超越了需要微调的现有方法,展现了优异的性能。

📝 摘要(中文)

本文提出了一种免训练的时空解耦推理视频分割方法SDAM,旨在解决现有ReasonVOS方法需要大量资源进行微调以及时空信息处理耦合导致时间稳定性不足的问题。SDAM仅使用预训练模型,无需额外训练即可超越现有需要微调的方法。该方法引入自适应对象记忆模块,根据视频序列中的运动线索选择和记忆关键对象。同时,采用时空解耦策略,在空间域实现目标对象的精确定位和分割,在时间域利用关键对象的时间信息驱动稳定的跨帧传播。实验结果表明,该方法在Ref-YouTubeVOS、Ref-DAVIS17、MeViS、ReasonVOS和ReVOS五个基准数据集上取得了优异的性能。

🔬 方法详解

问题定义:ReasonVOS任务旨在利用文本输入稳定地分割视频序列中的目标对象。现有方法主要依赖于微调多模态大语言模型(MLLMs),这需要大量的计算资源。此外,一些方法在处理时空信息时采用耦合方式,导致模型的时间稳定性受到影响。因此,如何在不进行微调的情况下,提升视频分割的时间稳定性是本文要解决的问题。

核心思路:本文的核心思路是设计一个免训练的框架,通过解耦时空信息处理,并引入自适应对象记忆模块来提升分割的准确性和时间稳定性。通过空间域精确定位和分割目标对象,时间域利用关键对象的时间信息驱动稳定的跨帧传播。

技术框架:SDAM框架主要包含三个核心模块:空间分割模块、自适应对象记忆模块和时间传播模块。首先,空间分割模块负责在每一帧中定位和分割目标对象。然后,自适应对象记忆模块根据运动线索选择并记忆关键对象,形成对象记忆。最后,时间传播模块利用对象记忆中的时间信息,将分割结果稳定地传播到后续帧。

关键创新:SDAM的关键创新在于以下两点:一是免训练的框架设计,避免了对MLLM进行微调所需的大量计算资源;二是时空解耦的处理方式,通过独立处理空间和时间信息,提升了分割的时间稳定性。自适应对象记忆模块也是一个创新点,它能够根据视频内容动态地选择和记忆关键对象,从而更好地支持时间传播。

关键设计:自适应对象记忆模块的设计是关键。该模块利用运动信息(例如光流)来判断哪些对象是关键对象,并将这些对象的特征存储在记忆中。在时间传播过程中,模型会根据当前帧的特征和记忆中的特征,来预测下一帧的分割结果。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。损失函数的设计也至关重要,需要平衡分割的准确性和时间稳定性(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SDAM在五个基准数据集(Ref-YouTubeVOS、Ref-DAVIS17、MeViS、ReasonVOS和ReVOS)上取得了优异的性能,证明了其有效性。值得注意的是,SDAM在无需任何训练的情况下,超越了许多需要大量资源进行微调的方法,这充分体现了其高效性和泛化能力。具体的性能提升幅度在论文中进行了详细的量化比较(未知)。

🎯 应用场景

SDAM具有广泛的应用前景,例如视频编辑、智能监控、自动驾驶等领域。在视频编辑中,可以用于快速准确地分割视频中的目标对象,方便进行特效添加和内容修改。在智能监控中,可以用于实时跟踪和分析视频中的运动目标,提高监控效率。在自动驾驶中,可以用于识别和分割道路上的车辆、行人等目标,为自动驾驶系统提供可靠的环境感知信息。

📄 摘要(原文)

Reasoning Video Object Segmentation (ReasonVOS) is a challenging task that requires stable object segmentation across video sequences using implicit and complex textual inputs. Previous methods fine-tune Multimodal Large Language Models (MLLMs) to produce segmentation outputs, which demand substantial resources. Additionally, some existing methods are coupled in the processing of spatio-temporal information, which affects the temporal stability of the model to some extent. To address these issues, we propose Training-Free \textbf{S}patio-temporal \textbf{D}ecoupled Reasoning Video Segmentation with \textbf{A}daptive Object \textbf{M}emory (SDAM). We aim to design a training-free reasoning video segmentation framework that outperforms existing methods requiring fine-tuning, using only pre-trained models. Meanwhile, we propose an Adaptive Object Memory module that selects and memorizes key objects based on motion cues in different video sequences. Finally, we propose Spatio-temporal Decoupling for stable temporal propagation. In the spatial domain, we achieve precise localization and segmentation of target objects, while in the temporal domain, we leverage key object temporal information to drive stable cross-frame propagation. Our method achieves excellent results on five benchmark datasets, including Ref-YouTubeVOS, Ref-DAVIS17, MeViS, ReasonVOS, and ReVOS.