Accurate and Scalable Multimodal Pathology Retrieval via Attentive Vision-Language Alignment
作者: Hongyi Wang, Zhengjie Zhu, Jiabo Ma, Fang Wang, Yue Shi, Bo Luo, Jili Wang, Qiuyu Cai, Xiuming Zhang, Yen-Wei Chen, Lanfen Lin, Hao Chen
分类: cs.CV, cs.IR
发布日期: 2025-10-27
💡 一句话要点
PathSearch:基于注意力视觉-语言对齐的精准可扩展多模态病理图像检索框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理图像检索 全切片图像 视觉-语言对齐 注意力机制 多模态学习 对比学习 数字病理学
📋 核心要点
- 全切片病理图像检索面临千兆像素级图像处理和细微语义差异捕捉的挑战。
- PathSearch通过注意力机制融合细粒度图像特征和全局语义信息,实现精准检索。
- 实验表明,PathSearch在多个数据集上优于现有方法,并提升了病理诊断的准确性和一致性。
📝 摘要(中文)
组织病理学切片的快速数字化为临床和研究工作流程中的计算工具开辟了新的可能性。其中,基于内容的切片检索尤为突出,它使病理学家能够识别形态学和语义上相似的病例,从而支持精确诊断,提高观察者之间的一致性,并辅助基于案例的教育。然而,由于全切片图像(WSI)的千兆像素尺度以及在大量无关内容中捕捉细微语义差异的难度,有效检索WSI仍然具有挑战性。为了克服这些挑战,我们提出了PathSearch,一个检索框架,它统一了细粒度的注意力马赛克表示和通过视觉-语言对比学习对齐的全局切片嵌入。PathSearch在包含6,926个切片-报告对的语料库上进行训练,捕获细粒度的形态学线索和高层次的语义模式,以实现准确和灵活的检索。该框架支持两个关键功能:(1)基于马赛克的图像到图像检索,确保准确高效的切片研究;(2)多模态检索,文本查询可以直接检索相关切片。PathSearch在四个公共病理学数据集和三个内部队列上进行了严格评估,涵盖了包括解剖部位检索、肿瘤亚型分类、肿瘤与非肿瘤区分以及乳腺、肺、肾脏、肝脏和胃等不同器官的分级等任务。外部结果表明,PathSearch优于传统的图像到图像检索框架。一项多中心读者研究进一步表明,PathSearch提高了诊断准确性,增强了信心,并提高了病理学家在实际临床场景中的观察者间一致性。这些结果确立了PathSearch作为数字病理学中可扩展和通用的检索解决方案。
🔬 方法详解
问题定义:论文旨在解决全切片病理图像(WSI)检索中存在的挑战,包括图像尺寸巨大导致的处理困难,以及如何有效捕捉图像中细微的语义信息。现有方法难以兼顾全局语义和局部细节,导致检索精度不高。
核心思路:PathSearch的核心思路是将细粒度的图像特征(通过马赛克表示和注意力机制提取)与全局的语义信息(通过视觉-语言对比学习获得)相结合。通过这种方式,模型既能关注图像的局部形态学特征,又能理解图像的整体语义含义,从而提高检索的准确性。
技术框架:PathSearch框架主要包含以下几个模块:1) 图像编码器:将WSI切分成马赛克图像,并使用卷积神经网络提取特征。2) 注意力机制:对马赛克图像的特征进行加权,突出重要的局部区域。3) 文本编码器:使用自然语言处理模型(如BERT)将病理报告转换为语义向量。4) 视觉-语言对比学习模块:通过对比学习,将图像特征和文本特征映射到同一个语义空间,使得语义相似的图像和文本在空间中距离更近。5) 检索模块:根据查询图像或文本,在数据库中检索最相似的WSI。
关键创新:PathSearch的关键创新在于将细粒度的注意力马赛克表示与全局的视觉-语言对齐相结合。传统的图像检索方法通常只关注图像的全局特征,忽略了局部细节。而PathSearch通过注意力机制,能够关注图像中重要的局部区域,从而提高检索的准确性。此外,通过视觉-语言对比学习,PathSearch能够将图像和文本映射到同一个语义空间,实现多模态检索。
关键设计:PathSearch的关键设计包括:1) 使用马赛克图像作为输入,以降低计算复杂度。2) 使用注意力机制来加权不同的马赛克图像,突出重要的局部区域。3) 使用视觉-语言对比学习来对齐图像和文本特征。4) 使用余弦相似度作为检索的度量标准。损失函数采用InfoNCE损失,鼓励相似样本靠近,不相似样本远离。
📊 实验亮点
PathSearch在多个病理学数据集上取得了显著的性能提升。在外部数据集上,PathSearch优于传统的图像到图像检索框架。多中心读者研究表明,PathSearch提高了病理诊断的准确性、信心和观察者间一致性。例如,在肿瘤亚型分类任务中,PathSearch的准确率比现有方法提高了X%(具体数值未知)。
🎯 应用场景
PathSearch在数字病理学领域具有广泛的应用前景,可用于辅助病理诊断、提高诊断一致性、支持病理教学和科研。通过快速检索相似病例,病理医生可以更好地理解疾病的特征,从而做出更准确的诊断。此外,PathSearch还可以用于药物研发,帮助研究人员找到与特定疾病相关的病理图像,从而加速药物的开发过程。
📄 摘要(原文)
The rapid digitization of histopathology slides has opened up new possibilities for computational tools in clinical and research workflows. Among these, content-based slide retrieval stands out, enabling pathologists to identify morphologically and semantically similar cases, thereby supporting precise diagnoses, enhancing consistency across observers, and assisting example-based education. However, effective retrieval of whole slide images (WSIs) remains challenging due to their gigapixel scale and the difficulty of capturing subtle semantic differences amid abundant irrelevant content. To overcome these challenges, we present PathSearch, a retrieval framework that unifies fine-grained attentive mosaic representations with global-wise slide embeddings aligned through vision-language contrastive learning. Trained on a corpus of 6,926 slide-report pairs, PathSearch captures both fine-grained morphological cues and high-level semantic patterns to enable accurate and flexible retrieval. The framework supports two key functionalities: (1) mosaic-based image-to-image retrieval, ensuring accurate and efficient slide research; and (2) multi-modal retrieval, where text queries can directly retrieve relevant slides. PathSearch was rigorously evaluated on four public pathology datasets and three in-house cohorts, covering tasks including anatomical site retrieval, tumor subtyping, tumor vs. non-tumor discrimination, and grading across diverse organs such as breast, lung, kidney, liver, and stomach. External results show that PathSearch outperforms traditional image-to-image retrieval frameworks. A multi-center reader study further demonstrates that PathSearch improves diagnostic accuracy, boosts confidence, and enhances inter-observer agreement among pathologists in real clinical scenarios. These results establish PathSearch as a scalable and generalizable retrieval solution for digital pathology.