ArthroCut: Autonomous Policy Learning for Robotic Bone Resection in Knee Arthroplasty
作者: Xu Lu, Yiling Zhang, Wenquan Cheng, Longfei Ma, Fang Chen, Hongen Liao
分类: cs.RO
发布日期: 2026-03-04
备注: Accepted for publication at the 2026 IEEE International Conference on Robotics and Automation (ICRA)
💡 一句话要点
ArthroCut:用于膝关节置换术中机器人骨切除的自主策略学习框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 膝关节置换 手术机器人 自主策略学习 多模态融合 骨科手术
📋 核心要点
- 手术机器人的自主性和实时决策能力仍然有限,无法充分利用其潜力。
- ArthroCut通过融合多模态数据和策略学习,使机器人能够生成上下文感知的骨切除动作。
- 实验表明,ArthroCut在膝关节置换术的骨切除任务中显著优于现有方法,提升了手术成功率。
📝 摘要(中文)
本文提出ArthroCut,一个自主策略学习框架,旨在将膝关节置换手术机器人从辅助执行升级为上下文感知的动作生成。ArthroCut在自建的多模态数据集上微调Qwen-VL骨干网络,该数据集包含来自21个完整病例(23,205个RGB-D图像对)的时间同步数据,整合了术前CT/MR、术中骨骼和末端执行器的NDI跟踪、RGB-D手术视频、机器人状态和文本意图。该方法基于两种互补的token家族——术前影像token(PIT)用于编码患者特定的解剖结构和计划的切除平面,以及时间对齐的手术token(TAST)用于融合实时视觉、几何和运动学证据——并在语法/安全约束解码下输出可解释的动作语法。在膝关节假体的七次试验中,ArthroCut在六个标准切除术中实现了86%的平均成功率,显著优于相同协议下训练的强基线模型。消融实验表明,TAST是可靠性的主要驱动因素,而PIT提供了必要的解剖学基础,它们的结合产生了最稳定的多平面执行效果。这些结果表明,将术前几何信息与时间对齐的术中感知相结合,并将这种对齐转化为token化的、受约束的动作,是实现骨科机器人手术中鲁棒、可解释自主性的有效途径。
🔬 方法详解
问题定义:现有手术机器人主要作为辅助工具,自主性和实时决策能力不足,无法根据术中情况动态调整手术方案。这限制了手术机器人的应用范围和手术效率。论文旨在解决膝关节置换术中机器人骨切除的自主策略学习问题,使机器人能够根据患者的个体化解剖结构和术中实时感知信息,自主生成安全有效的切除动作。
核心思路:论文的核心思路是将术前影像数据(CT/MR)与术中实时感知数据(RGB-D视频、骨骼跟踪、机器人状态)相结合,利用大型语言模型(LLM)的强大表征能力,学习一个能够生成安全、可解释的骨切除动作的策略。通过token化的动作语法和约束解码,保证动作的安全性。
技术框架:ArthroCut框架包含以下主要模块:1) 多模态数据采集与同步:收集术前CT/MR、术中NDI跟踪数据、RGB-D手术视频、机器人状态和文本意图,并进行时间同步。2) 特征提取与编码:利用Qwen-VL骨干网络提取术前影像token(PIT)和时间对齐的手术token(TAST)。PIT编码患者的解剖结构和计划的切除平面,TAST融合实时视觉、几何和运动学证据。3) 策略学习与动作生成:基于提取的token,学习一个能够生成骨切除动作的策略。采用token化的动作语法和约束解码,保证动作的安全性。
关键创新:ArthroCut的关键创新在于:1) 提出了一种将术前影像和术中实时感知相结合的多模态融合方法,充分利用了患者的个体化信息和术中环境信息。2) 利用大型语言模型(Qwen-VL)学习骨切除策略,提高了策略的泛化能力和鲁棒性。3) 采用token化的动作语法和约束解码,保证了动作的安全性。
关键设计:论文的关键设计包括:1) 使用Qwen-VL作为骨干网络,利用其强大的多模态表征能力。2) 设计了PIT和TAST两种token家族,分别编码术前影像和术中实时感知信息。3) 采用语法/安全约束解码,保证生成的动作符合手术规范和安全要求。具体参数设置和损失函数等细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
ArthroCut在膝关节假体的七次试验中,在六个标准切除术中实现了86%的平均成功率,显著优于相同协议下训练的强基线模型。消融实验表明,时间对齐的手术token(TAST)是可靠性的主要驱动因素,而术前影像token(PIT)提供了必要的解剖学基础,它们的结合产生了最稳定的多平面执行效果。这些结果验证了ArthroCut的有效性和优越性。
🎯 应用场景
ArthroCut具有广泛的应用前景,可应用于膝关节置换、髋关节置换等骨科手术。通过提高手术机器人的自主性和智能化水平,可以减少手术时间、降低手术风险、提高手术精度,并最终改善患者的治疗效果。该研究为骨科手术机器人的发展提供了一种新的思路和方法,有望推动骨科手术的智能化和精准化。
📄 摘要(原文)
Despite rapid commercialization of surgical robots, their autonomy and real-time decision-making remain limited in practice. To address this gap, we propose ArthroCut, an autonomous policy learning framework that upgrades knee arthroplasty robots from assistive execution to context-aware action generation. ArthroCut fine-tunes a Qwen--VL backbone on a self-built, time-synchronized multimodal dataset from 21 complete cases (23,205 RGB--D pairs), integrating preoperative CT/MR, intraoperative NDI tracking of bones and end effector, RGB--D surgical video, robot state, and textual intent. The method operates on two complementary token families -- Preoperative Imaging Tokens (PIT) to encode patient-specific anatomy and planned resection planes, and Time-Aligned Surgical Tokens (TAST) to fuse real-time visual, geometric, and kinematic evidence -- and emits an interpretable action grammar under grammar/safety-constrained decoding. In bench-top experiments on a knee prosthesis across seven trials, ArthroCut achieves an average success rate of 86% over the six standard resections, significantly outperforming strong baselines trained under the same protocol. Ablations show that TAST is the principal driver of reliability while PIT provides essential anatomical grounding, and their combination yields the most stable multi-plane execution. These results indicate that aligning preoperative geometry with time-aligned intraoperative perception and translating that alignment into tokenized, constrained actions is an effective path toward robust, interpretable autonomy in orthopedic robotic surgery.