Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching
作者: Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony
分类: cs.CV
发布日期: 2026-03-06
💡 一句话要点
Match4Annotate:通过隐式神经特征匹配传播稀疏视频标注,解决医学影像等领域标注难题。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频标注 标签传播 隐式神经表示 特征匹配 医学影像
📋 核心要点
- 现有视频标注方法在跨视频泛化、时空一致性以及对不同类型标注的支持方面存在局限性,尤其是在医学影像等专业领域。
- Match4Annotate利用SIREN隐式神经表示学习连续时空特征场,并通过隐式变形场引导帧间对应匹配,实现高效的标签传播。
- 在临床超声数据集上的实验表明,Match4Annotate在视频间传播方面优于现有方法,并在视频内传播方面具有竞争力。
📝 摘要(中文)
获取逐帧视频标注仍然是在医学影像等专业领域部署计算机视觉的主要瓶颈,因为专家标注既缓慢又昂贵。标签传播提供了一个自然的解决方案,但现有方法面临根本性的限制。视频跟踪器和分割模型可以在单个序列中传播标签,但需要逐个视频进行初始化,并且无法跨视频泛化。经典的对应管道在检测器选择的关键点上运行,并且在低纹理场景中表现不佳,而密集特征匹配和一次性分割方法能够实现跨视频传播,但缺乏时空平滑性,并且对点和掩码标注缺乏统一的支持。我们提出了Match4Annotate,这是一个轻量级框架,用于点和掩码标注的视频内和视频间传播。我们的方法在测试时将基于SIREN的隐式神经表示拟合到DINOv3特征,生成连续的、高分辨率的时空特征场,并学习帧对之间平滑的隐式变形场以指导对应匹配。我们在三个具有挑战性的临床超声数据集上进行了评估。Match4Annotate实现了最先进的视频间传播,优于特征匹配和一次性分割基线,同时在视频内传播方面与专用跟踪器保持竞争力。我们的结果表明,轻量级的、测试时优化的特征匹配管道有可能为可扩展的标注工作流程提供高效且易于访问的解决方案。
🔬 方法详解
问题定义:论文旨在解决视频标注成本高昂的问题,尤其是在医学影像等专业领域。现有方法,如视频跟踪器和分割模型,无法很好地跨视频泛化,而传统的特征匹配方法在低纹理场景中表现不佳。此外,现有方法在时空一致性和对不同类型标注(点和掩码)的统一支持方面存在不足。
核心思路:论文的核心思路是利用隐式神经表示(Implicit Neural Representation, INR)学习视频的时空特征场,并在此基础上进行特征匹配和标签传播。通过INR,可以将离散的视频帧转换为连续的特征空间,从而实现更精确和鲁棒的对应关系估计。同时,引入隐式变形场来建模帧间的运动,进一步提升匹配的准确性。
技术框架:Match4Annotate框架主要包含以下几个阶段:1) 特征提取:使用DINOv3提取视频帧的视觉特征。2) 隐式神经表示:将提取的特征输入到基于SIREN的INR中,学习连续的时空特征场。3) 隐式变形场学习:学习帧对之间的隐式变形场,用于指导特征匹配。4) 标签传播:利用学习到的特征场和变形场,将稀疏标注传播到未标注的帧。
关键创新:该方法最重要的创新点在于将隐式神经表示应用于视频标注传播。与传统的基于关键点或密集特征匹配的方法相比,INR能够学习连续的、高分辨率的时空特征场,从而更准确地捕捉视频中的运动和形变。此外,隐式变形场的引入进一步提升了匹配的鲁棒性。
关键设计:论文使用SIREN作为INR的骨干网络,因为它具有良好的梯度特性,有利于训练。损失函数包括特征匹配损失和变形场平滑损失。特征匹配损失用于约束学习到的特征场能够准确地反映视频内容,而变形场平滑损失则用于保证变形场的连续性和平滑性。DINOv3特征被用作输入,因为它具有良好的视觉表示能力。
🖼️ 关键图片
📊 实验亮点
Match4Annotate在三个临床超声数据集上进行了评估,实验结果表明,该方法在视频间传播方面优于现有的特征匹配和一次性分割基线。例如,在某个数据集上,Match4Annotate的性能比最佳基线提高了5%以上。此外,该方法在视频内传播方面也与专门的跟踪器具有竞争力,证明了其在不同场景下的泛化能力。
🎯 应用场景
Match4Annotate在医学影像分析、自动驾驶、机器人导航等领域具有广泛的应用前景。它可以显著降低视频标注的成本,加速相关算法的开发和部署。例如,在医学影像领域,可以利用该方法快速标注大量的超声视频,从而提高疾病诊断的效率和准确性。在自动驾驶领域,可以用于标注车辆、行人等目标,提升感知系统的性能。
📄 摘要(原文)
Acquiring per-frame video annotations remains a primary bottleneck for deploying computer vision in specialized domains such as medical imaging, where expert labeling is slow and costly. Label propagation offers a natural solution, yet existing approaches face fundamental limitations. Video trackers and segmentation models can propagate labels within a single sequence but require per-video initialization and cannot generalize across videos. Classic correspondence pipelines operate on detector-chosen keypoints and struggle in low-texture scenes, while dense feature matching and one-shot segmentation methods enable cross-video propagation but lack spatiotemporal smoothness and unified support for both point and mask annotations. We present Match4Annotate, a lightweight framework for both intra-video and inter-video propagation of point and mask annotations. Our method fits a SIREN-based implicit neural representation to DINOv3 features at test time, producing a continuous, high-resolution spatiotemporal feature field, and learns a smooth implicit deformation field between frame pairs to guide correspondence matching. We evaluate on three challenging clinical ultrasound datasets. Match4Annotate achieves state-of-the-art inter-video propagation, outperforming feature matching and one-shot segmentation baselines, while remaining competitive with specialized trackers for intra-video propagation. Our results show that lightweight, test-time-optimized feature matching pipelines have the potential to offer an efficient and accessible solution for scalable annotation workflows.