A 4D Representation for Training-Free Agentic Reasoning from Monocular Laparoscopic Video
作者: Maximilian Fehrentz, Nicolas Stellwag, Robert Wiebe, Nicole Thorisch, Fabian Grob, Patrick Remerscheid, Ken-Joel Simmoteit, Benjamin D. Killeen, Christian Heiliger, Nassir Navab
分类: cs.CV
发布日期: 2026-04-01
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于单目腹腔镜视频的4D表征,实现免训练的手术智能体推理
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手术视频理解 4D表征 时空推理 多模态学习 单目腹腔镜 智能手术辅助 免训练学习
📋 核心要点
- 现有方法难以有效处理手术场景复杂的时空关系,限制了手术辅助AI的性能。
- 构建显式的4D表征,融合点跟踪、深度估计和分割信息,为智能体提供时空一致的工具和组织语义。
- 实验表明,该方法在时空理解方面有显著提升,无需额外训练即可实现4D定位。
📝 摘要(中文)
时空推理是人工智能在软组织手术中的一项基本能力,为智能辅助系统和自主机器人铺平了道路。虽然2D视觉-语言模型在理解手术视频方面显示出越来越大的潜力,但手术场景的空间复杂性表明,推理系统可能受益于显式的4D表征。本文提出了一个框架,为手术智能体配备基于显式4D表征的时空工具,使AI系统能够将其自然语言推理置于时间和3D空间中。利用点跟踪、深度和分割模型,我们开发了一个具有时空一致的工具和组织语义的连贯4D模型。然后,多模态大型语言模型(MLLM)充当从显式4D表征(例如,轨迹)导出的工具上的智能体,而无需任何微调。我们在一个包含134个临床相关问题的新数据集上评估了我们的方法,发现通用推理骨干和我们的4D表征的结合显著提高了时空理解,并允许进行4D定位。我们证明了时空智能可以从2D MLLM和3D计算机视觉模型“组装”而成,而无需额外的训练。代码、数据和示例可在https://tum-ai.github.io/surg4d/ 获取。
🔬 方法详解
问题定义:现有基于2D视觉-语言模型的手术视频理解方法,难以充分捕捉手术场景中复杂的时空关系,例如工具的运动轨迹、组织形变等。这限制了AI系统进行精确时空推理的能力,阻碍了智能手术辅助系统的发展。现有方法通常需要大量标注数据进行训练,泛化能力有限。
核心思路:本文的核心思路是构建一个显式的4D表征,将手术视频中的时空信息进行编码,从而为AI智能体提供更丰富的上下文信息。通过将2D视觉信息(如深度、分割)与时间信息进行融合,得到一个时空一致的场景表示,使智能体能够更好地理解手术过程。该方法旨在利用预训练的2D模型和3D视觉模型,无需额外训练即可实现时空推理。
技术框架:该框架主要包含以下几个模块:1) 2D视觉信息提取:利用预训练模型提取手术视频中的点跟踪、深度和分割信息。2) 4D表征构建:将提取的2D信息与时间信息进行融合,构建一个显式的4D模型,该模型包含时空一致的工具和组织语义。3) 智能体推理:使用多模态大型语言模型(MLLM)作为智能体,基于4D表征进行自然语言推理,例如回答关于手术步骤、工具使用等问题。
关键创新:该方法最重要的创新点在于提出了一个基于单目腹腔镜视频的显式4D表征,用于手术智能体的时空推理。与现有方法相比,该方法无需额外训练,即可将2D MLLM和3D计算机视觉模型结合起来,实现时空智能。通过显式地建模时空关系,该方法能够更好地理解手术场景,提高推理的准确性。
关键设计:在4D表征构建方面,采用了点跟踪算法来追踪工具和组织的关键点,从而获得它们的运动轨迹。利用深度估计模型来获取场景的3D信息。使用分割模型来区分工具和组织,并赋予它们相应的语义信息。在智能体推理方面,使用了预训练的MLLM,并将其输入与4D表征相关的工具轨迹等信息,从而实现基于时空信息的推理。
🖼️ 关键图片
📊 实验亮点
在包含134个临床相关问题的新数据集上进行了评估,结果表明,该方法结合通用推理骨干和4D表征,显著提高了时空理解能力,并实现了4D定位。该方法无需额外训练,即可将2D MLLM和3D计算机视觉模型结合起来,实现时空智能,为手术智能体的研究提供了一种新的思路。
🎯 应用场景
该研究成果可应用于智能手术辅助系统、手术机器人等领域。通过提供更精确的时空理解,该方法可以帮助医生进行手术规划、导航和操作,提高手术效率和安全性。此外,该方法还可以用于手术视频分析、教学和培训,为医学教育提供更丰富的资源。
📄 摘要(原文)
Spatiotemporal reasoning is a fundamental capability for artificial intelligence (AI) in soft tissue surgery, paving the way for intelligent assistive systems and autonomous robotics. While 2D vision-language models show increasing promise at understanding surgical video, the spatial complexity of surgical scenes suggests that reasoning systems may benefit from explicit 4D representations. Here, we propose a framework for equipping surgical agents with spatiotemporal tools based on an explicit 4D representation, enabling AI systems to ground their natural language reasoning in both time and 3D space. Leveraging models for point tracking, depth, and segmentation, we develop a coherent 4D model with spatiotemporally consistent tool and tissue semantics. A Multimodal Large Language Model (MLLM) then acts as an agent on tools derived from the explicit 4D representation (e.g., trajectories) without any fine-tuning. We evaluate our method on a new dataset of 134 clinically relevant questions and find that the combination of a general purpose reasoning backbone and our 4D representation significantly improves spatiotemporal understanding and allows for 4D grounding. We demonstrate that spatiotemporal intelligence can be "assembled" from 2D MLLMs and 3D computer vision models without additional training. Code, data, and examples are available at https://tum-ai.github.io/surg4d/