TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis
作者: Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang
分类: cs.CV
发布日期: 2026-03-06
备注: Accepted at ICLR 2026. 10 pages + appendix
🔗 代码/项目: GITHUB
💡 一句话要点
TumorChain:用于可追溯临床肿瘤分析的交错多模态思维链推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 肿瘤分析 多模态学习 思维链推理 医学影像 临床诊断
📋 核心要点
- 现有肿瘤分析方法缺乏可追溯性,难以解释从影像到病理结论的推理过程,易产生诊断错误。
- 提出TumorChain,通过多模态交错推理,耦合3D成像、文本理解和视觉-语言对齐,提升推理过程的可解释性。
- 实验表明,TumorChain在病灶检测、印象生成和病理学分类上均优于现有方法,并在DeepTumorVQA基准上表现出良好的泛化性。
📝 摘要(中文)
精确的肿瘤分析是临床放射学和精准肿瘤学的核心,早期检测、可靠的病灶特征描述和病理学级别的风险评估指导着诊断和治疗计划。思维链(CoT)推理在此环境中尤为重要,因为它能够实现从影像学发现到临床印象和病理学结论的逐步解释,从而提高可追溯性并减少诊断错误。本文针对临床肿瘤分析任务,构建了一个大规模基准,该基准实现了多模态推理流程,涵盖发现、印象和病理学预测。我们整理了TumorCoT,这是一个包含150万个CoT标记的VQA指令的大规模数据集,这些指令与3D CT扫描配对,具有步骤对齐的理由和跨模态对齐,沿着从发现到印象到病理学的轨迹,从而能够评估答案准确性和推理一致性。我们进一步提出了TumorChain,一个多模态交错推理框架,它紧密耦合了3D成像编码器、临床文本理解和器官级别视觉-语言对齐。通过跨模态对齐和迭代交错因果推理,TumorChain 确定视觉证据,聚合结论,并在多轮自我完善后发布病理学预测,从而提高可追溯性并降低幻觉风险。实验表明,在病灶检测、印象生成和病理学分类方面,相对于强大的基线,TumorChain 取得了持续的改进,并在 DeepTumorVQA 基准上展示了强大的泛化能力。这些结果突出了多模态推理在临床实践中可靠且可解释的肿瘤分析方面的潜力。
🔬 方法详解
问题定义:论文旨在解决临床肿瘤分析中缺乏可追溯性和可解释性的问题。现有方法难以将影像学发现与最终的病理学结论联系起来,导致诊断错误和难以理解的决策过程。现有方法在多模态信息融合方面存在不足,无法充分利用3D CT扫描和临床文本信息。
核心思路:论文的核心思路是利用多模态思维链(CoT)推理,模拟医生从影像学发现到临床印象再到病理学结论的逐步推理过程。通过交错的多模态推理,将3D成像、临床文本理解和器官级别的视觉-语言对齐紧密结合,从而提高推理过程的可追溯性和可解释性。这种方法旨在减少幻觉风险,并提供更可靠的肿瘤分析结果。
技术框架:TumorChain 框架包含以下主要模块: 1. 3D成像编码器:用于提取3D CT扫描的视觉特征。 2. 临床文本理解模块:用于理解临床文本信息,例如影像学发现和临床印象。 3. 器官级别视觉-语言对齐模块:用于将视觉特征与文本信息对齐,从而实现跨模态推理。 4. 交错推理模块:通过迭代的因果推理,逐步从影像学发现推导出临床印象和病理学结论。 5. 自我完善模块:通过多轮自我完善,提高推理结果的准确性和一致性。
关键创新:TumorChain 的最重要创新点在于其多模态交错推理框架,该框架能够紧密耦合 3D 成像、临床文本和视觉-语言信息,实现可追溯的肿瘤分析。与现有方法相比,TumorChain 不仅关注最终的预测结果,更关注推理过程的每一步,从而提高了可解释性和可靠性。此外,TumorChain 通过跨模态对齐和迭代推理,有效降低了幻觉风险。
关键设计:TumorChain 的关键设计包括: 1. TumorCoT 数据集:一个包含 150 万个 CoT 标记的 VQA 指令的大规模数据集,用于训练和评估模型。 2. 跨模态对齐损失函数:用于优化视觉特征和文本信息的对齐。 3. 迭代推理机制:通过多轮迭代推理,逐步完善推理结果。 4. 器官级别注意力机制:用于关注与肿瘤相关的特定器官区域。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TumorChain 在病灶检测、印象生成和病理学分类方面均优于现有方法。具体而言,TumorChain 在病灶检测方面取得了显著的提升,在印象生成方面生成了更准确和更具临床意义的描述,并在病理学分类方面实现了更高的准确率。此外,TumorChain 在 DeepTumorVQA 基准上展示了强大的泛化能力,表明其在不同数据集和临床场景中具有良好的适用性。
🎯 应用场景
TumorChain 有潜力应用于临床肿瘤分析的多个领域,包括早期肿瘤检测、病灶特征描述、病理学风险评估和治疗计划制定。该研究可以帮助医生更准确地诊断肿瘤,并提供更个性化的治疗方案。此外,TumorChain 的可追溯性和可解释性使其能够作为辅助诊断工具,提高诊断的可靠性和效率。未来,该技术有望整合到临床工作流程中,改善患者的治疗效果。
📄 摘要(原文)
Accurate tumor analysis is central to clinical radiology and precision oncology, where early detection, reliable lesion characterization, and pathology-level risk assessment guide diagnosis and treatment planning. Chain-of-Thought (CoT) reasoning is particularly important in this setting because it enables step-by-step interpretation from imaging findings to clinical impressions and pathology conclusions, improving traceability and reducing diagnostic errors. Here, we target the clinical tumor analysis task and build a large-scale benchmark that operationalizes a multimodal reasoning pipeline, spanning findings, impressions, and pathology predictions. We curate TumorCoT, a large-scale dataset of 1.5M CoT-labeled VQA instructions paired with 3D CT scans, with step-aligned rationales and cross-modal alignments along the trajectory from findings to impression to pathology, enabling evaluation of both answer accuracy and reasoning consistency. We further propose TumorChain, a multimodal interleaved reasoning framework that tightly couples 3D imaging encoders, clinical text understanding, and organ-level vision-language alignment. Through cross-modal alignment and iterative interleaved causal reasoning, TumorChain grounds visual evidence, aggregates conclusions, and issues pathology predictions after multiple rounds of self-refinement, improving traceability and reducing hallucination risk. Experiments show consistent improvements over strong baselines in lesion detection, impression generation, and pathology classification, and demonstrate strong generalization on the DeepTumorVQA benchmark. These results highlight the potential of multimodal reasoning for reliable and interpretable tumor analysis in clinical practice. Detailed information about our project can be found on our project homepage at https://github.com/ZJU4HealthCare/TumorChain.