The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation
作者: Xusheng He, Canyang Wu, Jinrong Zhang, Weili Guan, Jianlong Wu, Liqiang Nie
分类: cs.CV
发布日期: 2026-04-01
备注: 1st Place Solution for the 5th PVUW MeViS-Text Challenge (CVPR 2026 Workshop)
🔗 代码/项目: GITHUB
💡 一句话要点
利用MLLM与SAM3的免训练方案,解决运动中心语言表达下的视频目标分割问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频目标分割 多模态大语言模型 SAM3 免训练学习 运动中心语言表达
📋 核心要点
- 现有方法难以有效融合外观、时间行为和对象交互信息,导致运动中心语言表达下的视频目标分割性能受限。
- 提出一种完全免训练的pipeline,结合多模态大语言模型(MLLM)和SAM3,实现精确的视频目标分割。
- 在PVUW 2026 MeViS-Text测试集上,该方法取得了第一名的成绩,证明了其有效性和优越性。
📝 摘要(中文)
本报告介绍了我们在第五届PVUW MeViS-Text挑战赛中获胜的解决方案。该赛道研究的是在运动中心语言表达下的视频目标分割,模型必须联合理解外观、时间行为和对象交互。为了解决这个问题,我们构建了一个完全免训练的流程,将强大的多模态大型语言模型与SAM3相结合。我们的方法包含三个阶段。首先,Gemini-3.1 Pro将每个目标事件分解为实例级别的 grounding 目标,选择目标最清晰可见的帧,并生成具有区分性的描述。其次,SAM3-agent在选定的帧上生成精确的种子掩码,官方的SAM3跟踪器在整个视频中传播该掩码。第三,细化阶段使用Qwen3.5-Plus和行为级别的验证来纠正模糊或语义不一致的预测。在没有特定任务微调的情况下,我们的方法在PVUW 2026 MeViS-Text测试集上排名第一,最终得分为0.909064,J&F得分为0.7897。
🔬 方法详解
问题定义:论文旨在解决运动中心语言表达下的视频目标分割(Referring Video Object Segmentation, RVOS)问题。现有方法难以同时理解视频中目标的外观、时间行为以及对象间的交互关系,尤其是在复杂的运动场景下,分割精度和鲁棒性面临挑战。此外,针对特定任务进行模型微调需要大量标注数据,成本较高。
核心思路:论文的核心思路是利用多模态大语言模型(MLLM)强大的理解和推理能力,结合SAM3(Segment Anything Model 3D)的精确分割和跟踪能力,构建一个无需训练的RVOS pipeline。通过MLLM分解复杂语言指令,生成实例级别的 grounding 目标,并利用SAM3进行精确的mask生成和传播。
技术框架:整体流程分为三个阶段:1) 事件分解与描述生成:使用Gemini-3.1 Pro将目标事件分解为实例级别的 grounding 目标,并选择目标最清晰的帧,生成描述性文本。2) 种子掩码生成与传播:利用SAM3-agent在选定帧上生成精确的种子掩码,然后使用官方SAM3跟踪器在整个视频中传播该掩码。3) 掩码细化与校正:使用Qwen3.5-Plus和行为级别的验证来纠正模糊或语义不一致的预测。
关键创新:该方法最重要的创新在于构建了一个完全免训练的RVOS pipeline,避免了对特定任务进行微调的需求。通过将MLLM的语言理解能力与SAM3的分割能力相结合,实现了在复杂运动场景下精确的视频目标分割。此外,利用行为级别的验证进行掩码细化,进一步提高了分割的准确性和一致性。
关键设计:在事件分解阶段,Gemini-3.1 Pro负责将复杂的语言指令转化为更易于处理的实例级别目标。SAM3-agent用于生成初始的种子掩码,其prompt设计对分割结果至关重要,但论文中未详细描述。Qwen3.5-Plus用于评估和校正分割结果,其具体实现细节(如prompt设计、损失函数等)未知。行为级别的验证方法也未详细说明。
🖼️ 关键图片
📊 实验亮点
该方法在PVUW 2026 MeViS-Text测试集上取得了第一名的成绩,Final score达到0.909064,J&F score达到0.7897。该结果表明,即使在没有特定任务微调的情况下,通过结合强大的MLLM和SAM3,也能实现优异的视频目标分割性能。具体的对比基线和提升幅度未知。
🎯 应用场景
该研究成果可应用于智能视频监控、自动驾驶、人机交互、视频编辑等领域。例如,在自动驾驶中,可以根据语音指令分割和跟踪特定车辆或行人,提高驾驶安全性。在视频编辑中,可以快速准确地分割视频中的目标对象,方便进行特效添加和内容修改。未来,该方法有望进一步扩展到更复杂的视频场景和任务中。
📄 摘要(原文)
This report presents our winning solution to the 5th PVUW MeViS-Text Challenge. The track studies referring video object segmentation under motion-centric language expressions, where the model must jointly understand appearance, temporal behavior, and object interactions. To address this problem, we build a fully training-free pipeline that combines strong multimodal large language models with SAM3. Our method contains three stages. First, Gemini-3.1 Pro decomposes each target event into instance-level grounding targets, selects the frame where the target is most clearly visible, and generates a discriminative description. Second, SAM3-agent produces a precise seed mask on the selected frame, and the official SAM3 tracker propagates the mask through the whole video. Third, a refinement stage uses Qwen3.5-Plus and behavior-level verification to correct ambiguous or semantically inconsistent predictions. Without task-specific fine-tuning, our method ranks first on the PVUW 2026 MeViS-Text test set, achieving a Final score of 0.909064 and a J&F score of 0.7897. The code is available at https://github.com/Moujuruo/MeViSv2_Track_Solution_2026.