SurgLaVi: Large-Scale Hierarchical Dataset for Surgical Vision-Language Representation Learning
作者: Alejandra Perez, Chinedu Nwoye, Ramtin Raji Kermani, Omid Mohareri, Muhammad Abdullah Jamal
分类: cs.CV
发布日期: 2025-09-09
💡 一句话要点
SurgLaVi:构建大规模手术视觉-语言分层数据集,用于手术视觉-语言表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手术视频理解 视觉-语言预训练 对比学习 分层数据集 手术机器人 医疗人工智能 SurgCLIP
📋 核心要点
- 现有手术视觉-语言预训练数据集在规模、程序多样性、语义质量和分层结构方面存在不足,限制了模型性能。
- SurgLaVi通过全自动流程生成细粒度手术视频转录,并进行双模态过滤,构建大规模、高质量、分层结构的视觉-语言数据集。
- SurgCLIP模型在SurgLaVi数据集上训练后,在手术阶段、步骤、动作和工具识别任务上显著超越现有方法。
📝 摘要(中文)
视觉-语言预训练(VLP)通过将语言与手术视频对齐,为手术提供独特的优势,无需依赖专家标注的数据集即可实现工作流程理解和跨任务迁移。然而,手术VLP的进展受到现有数据集的规模、程序多样性、语义质量和分层结构的限制。本文提出了SurgLaVi,迄今为止最大、最多样化的手术视觉-语言数据集,包含来自200多个手术的近24万个片段-字幕对,并包含阶段、步骤和任务级别的分层结构。SurgLaVi的核心是一个全自动管道,可以系统地生成手术视频的细粒度转录,并将其分割成连贯的程序单元。为了确保高质量的注释,它应用双模态过滤来删除不相关和嘈杂的样本。在此框架内,生成的字幕通过上下文细节得到丰富,从而产生语义丰富且易于解释的注释。为了确保可访问性,我们发布了SurgLaVi-{eta},这是一个完全由公共数据构建的11.3万个片段-字幕对的开源衍生版本,比现有的手术VLP数据集大四倍以上。为了证明SurgLaVi数据集的价值,我们引入了SurgCLIP,一个具有双编码器的CLIP风格的视频-文本对比框架,作为代表性的基础模型。SurgCLIP在阶段、步骤、动作和工具识别方面取得了持续的改进,超越了先前的最先进方法,通常幅度很大。这些结果验证了大规模、语义丰富和分层结构的数据集直接转化为更强大和更通用的表示,从而将SurgLaVi确立为开发手术基础模型的关键资源。
🔬 方法详解
问题定义:现有手术视觉-语言预训练数据集规模小、程序多样性不足、语义质量不高,且缺乏分层结构,导致模型泛化能力差,难以应用于复杂的手术任务。现有方法依赖人工标注,成本高昂且难以扩展。
核心思路:论文的核心思路是构建一个大规模、高质量、分层结构的手术视觉-语言数据集,并利用对比学习方法训练模型,从而学习到更通用、更具表达能力的手术视频表征。通过全自动化的流程,降低数据标注成本,提高数据规模和多样性。
技术框架:SurgLaVi的构建流程主要包括以下几个阶段:1) 数据收集:从多个来源收集手术视频数据。2) 自动转录:利用语音识别技术自动生成手术视频的文本转录。3) 分割:将视频分割成阶段、步骤和任务等不同层次的片段。4) 双模态过滤:利用视觉和语言信息过滤掉不相关和噪声数据。5) 数据集发布:发布SurgLaVi数据集及其开源衍生版本SurgLaVi-{eta}。SurgCLIP模型采用双编码器结构,分别编码视频和文本,然后通过对比学习损失函数进行训练。
关键创新:1) 构建了迄今为止最大、最多样化的手术视觉-语言数据集SurgLaVi。2) 提出了一个全自动化的数据标注流程,降低了数据标注成本。3) 利用双模态信息进行数据过滤,提高了数据质量。4) 引入了分层结构,更好地反映了手术过程的复杂性。
关键设计:SurgCLIP模型采用CLIP风格的对比学习框架,使用Transformer作为文本编码器,使用ResNet或类似结构作为视频编码器。对比学习损失函数采用InfoNCE损失。数据集的划分方式和评估指标的选择也经过精心设计,以确保实验结果的可靠性和可比性。
📊 实验亮点
SurgCLIP在SurgLaVi数据集上训练后,在手术阶段、步骤、动作和工具识别任务上取得了显著的性能提升,超越了先前的最先进方法。例如,在某项任务上,SurgCLIP的准确率比现有方法提高了10%以上,验证了大规模、高质量、分层结构数据集的有效性。
🎯 应用场景
SurgLaVi数据集和SurgCLIP模型可应用于手术机器人导航、手术技能评估、手术流程自动化、术后康复指导等领域。该研究为开发手术基础模型奠定了基础,有望推动手术智能化发展,提高手术效率和安全性,改善患者预后。
📄 摘要(原文)
Vision-language pre-training (VLP) offers unique advantages for surgery by aligning language with surgical videos, enabling workflow understanding and transfer across tasks without relying on expert-labeled datasets. However, progress in surgical VLP remains constrained by the limited scale, procedural diversity, semantic quality, and hierarchical structure of existing datasets. In this work, we present SurgLaVi, the largest and most diverse surgical vision-language dataset to date, comprising nearly 240k clip-caption pairs from more than 200 procedures, and comprising hierarchical levels at phase-, step-, and task-level. At the core of SurgLaVi lies a fully automated pipeline that systematically generates fine-grained transcriptions of surgical videos and segments them into coherent procedural units. To ensure high-quality annotations, it applies dual-modality filtering to remove irrelevant and noisy samples. Within this framework, the resulting captions are enriched with contextual detail, producing annotations that are both semantically rich and easy to interpret. To ensure accessibility, we release SurgLaVi-\b{eta}, an open-source derivative of 113k clip-caption pairs constructed entirely from public data, which is over four times larger than existing surgical VLP datasets. To demonstrate the value of SurgLaVi datasets, we introduce SurgCLIP, a CLIP-style video-text contrastive framework with dual encoders, as a representative base model. SurgCLIP achieves consistent improvements across phase, step, action, and tool recognition, surpassing prior state-of-the-art methods, often by large margins. These results validate that large-scale, semantically rich, and hierarchically structured datasets directly translate into stronger and more generalizable representations, establishing SurgLaVi as a key resource for developing surgical foundation models.