The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation

作者: Xusheng He, Canyang Wu, Jinrong Zhang, Weili Guan, Jianlong Wu, Liqiang Nie

分类: cs.CV

发布日期: 2026-04-01

备注: 1st Place Solution for the 5th PVUW MeViS-Text Challenge (CVPR 2026 Workshop)

🔗 代码/项目: GITHUB

💡 一句话要点

利用MLLM与SAM3的免训练方案，解决运动中心语言表达下的视频目标分割问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频目标分割 多模态大语言模型 SAM3 免训练学习 运动中心语言表达

📋 核心要点

现有方法难以有效融合外观、时间行为和对象交互信息，导致运动中心语言表达下的视频目标分割性能受限。
提出一种完全免训练的pipeline，结合多模态大语言模型（MLLM）和SAM3，实现精确的视频目标分割。
在PVUW 2026 MeViS-Text测试集上，该方法取得了第一名的成绩，证明了其有效性和优越性。

📝 摘要（中文）

本报告介绍了我们在第五届PVUW MeViS-Text挑战赛中获胜的解决方案。该赛道研究的是在运动中心语言表达下的视频目标分割，模型必须联合理解外观、时间行为和对象交互。为了解决这个问题，我们构建了一个完全免训练的流程，将强大的多模态大型语言模型与SAM3相结合。我们的方法包含三个阶段。首先，Gemini-3.1 Pro将每个目标事件分解为实例级别的 grounding 目标，选择目标最清晰可见的帧，并生成具有区分性的描述。其次，SAM3-agent在选定的帧上生成精确的种子掩码，官方的SAM3跟踪器在整个视频中传播该掩码。第三，细化阶段使用Qwen3.5-Plus和行为级别的验证来纠正模糊或语义不一致的预测。在没有特定任务微调的情况下，我们的方法在PVUW 2026 MeViS-Text测试集上排名第一，最终得分为0.909064，J&F得分为0.7897。

🔬 方法详解

问题定义：论文旨在解决运动中心语言表达下的视频目标分割（Referring Video Object Segmentation, RVOS）问题。现有方法难以同时理解视频中目标的外观、时间行为以及对象间的交互关系，尤其是在复杂的运动场景下，分割精度和鲁棒性面临挑战。此外，针对特定任务进行模型微调需要大量标注数据，成本较高。

核心思路：论文的核心思路是利用多模态大语言模型（MLLM）强大的理解和推理能力，结合SAM3（Segment Anything Model 3D）的精确分割和跟踪能力，构建一个无需训练的RVOS pipeline。通过MLLM分解复杂语言指令，生成实例级别的 grounding 目标，并利用SAM3进行精确的mask生成和传播。

技术框架：整体流程分为三个阶段：1) 事件分解与描述生成：使用Gemini-3.1 Pro将目标事件分解为实例级别的 grounding 目标，并选择目标最清晰的帧，生成描述性文本。2) 种子掩码生成与传播：利用SAM3-agent在选定帧上生成精确的种子掩码，然后使用官方SAM3跟踪器在整个视频中传播该掩码。3) 掩码细化与校正：使用Qwen3.5-Plus和行为级别的验证来纠正模糊或语义不一致的预测。

关键创新：该方法最重要的创新在于构建了一个完全免训练的RVOS pipeline，避免了对特定任务进行微调的需求。通过将MLLM的语言理解能力与SAM3的分割能力相结合，实现了在复杂运动场景下精确的视频目标分割。此外，利用行为级别的验证进行掩码细化，进一步提高了分割的准确性和一致性。

关键设计：在事件分解阶段，Gemini-3.1 Pro负责将复杂的语言指令转化为更易于处理的实例级别目标。SAM3-agent用于生成初始的种子掩码，其prompt设计对分割结果至关重要，但论文中未详细描述。Qwen3.5-Plus用于评估和校正分割结果，其具体实现细节（如prompt设计、损失函数等）未知。行为级别的验证方法也未详细说明。

🖼️ 关键图片

📊 实验亮点

该方法在PVUW 2026 MeViS-Text测试集上取得了第一名的成绩，Final score达到0.909064，J&F score达到0.7897。该结果表明，即使在没有特定任务微调的情况下，通过结合强大的MLLM和SAM3，也能实现优异的视频目标分割性能。具体的对比基线和提升幅度未知。

🎯 应用场景

该研究成果可应用于智能视频监控、自动驾驶、人机交互、视频编辑等领域。例如，在自动驾驶中，可以根据语音指令分割和跟踪特定车辆或行人，提高驾驶安全性。在视频编辑中，可以快速准确地分割视频中的目标对象，方便进行特效添加和内容修改。未来，该方法有望进一步扩展到更复杂的视频场景和任务中。

📄 摘要（原文）

This report presents our winning solution to the 5th PVUW MeViS-Text Challenge. The track studies referring video object segmentation under motion-centric language expressions, where the model must jointly understand appearance, temporal behavior, and object interactions. To address this problem, we build a fully training-free pipeline that combines strong multimodal large language models with SAM3. Our method contains three stages. First, Gemini-3.1 Pro decomposes each target event into instance-level grounding targets, selects the frame where the target is most clearly visible, and generates a discriminative description. Second, SAM3-agent produces a precise seed mask on the selected frame, and the official SAM3 tracker propagates the mask through the whole video. Third, a refinement stage uses Qwen3.5-Plus and behavior-level verification to correct ambiguous or semantically inconsistent predictions. Without task-specific fine-tuning, our method ranks first on the PVUW 2026 MeViS-Text test set, achieving a Final score of 0.909064 and a J&F score of 0.7897. The code is available at https://github.com/Moujuruo/MeViSv2_Track_Solution_2026.

The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理