CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

📄 arXiv: 2603.05911v1 📥 PDF

作者: Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu

分类: cs.CV, cs.AI

发布日期: 2026-03-06

备注: Under Review with Computational Visual Media

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出CORE-Seg,通过强化学习驱动的推理分割,解决复杂病灶分割难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 复杂病灶 推理分割 强化学习 多模态学习

📋 核心要点

  1. 现有方法在复杂病灶分割中,或缺乏专业视觉推理能力,或缺乏逻辑可解释性。
  2. CORE-Seg通过语义引导提示适配器,将推理与分割集成,实现端到端学习。
  3. 实验结果表明,CORE-Seg在ComLesion-14K数据集上显著优于现有方法,Dice系数提升显著。

📝 摘要(中文)

医学图像分割正经历从传统视觉模式匹配到认知推理分析的范式转变。尽管多模态大型语言模型(MLLM)在整合语言和视觉知识方面显示出潜力,但仍存在显著差距:现有的通用MLLM拥有广泛的常识,但缺乏复杂病灶所需的专业视觉推理能力,而传统的分割模型擅长像素级分割,但缺乏逻辑可解释性。本文介绍了ComLesion-14K,这是第一个用于推理驱动的复杂病灶分割的多样化思维链(CoT)基准。为了完成这项任务,我们提出了CORE-Seg,一个通过语义引导提示适配器将推理与分割集成的端到端框架。我们设计了一个从SFT到GRPO的渐进式训练策略,配备自适应双粒度奖励机制,以减轻奖励稀疏性。我们的方法实现了最先进的结果,平均Dice系数为37.06%(比第二好的基线高14.89%),同时将失败率降低到18.42%。

🔬 方法详解

问题定义:论文旨在解决复杂病灶的医学图像分割问题。现有方法,如传统的分割模型,虽然在像素级别上表现良好,但缺乏逻辑推理能力,难以处理复杂病灶。而通用多模态大语言模型(MLLM)虽然具备一定的常识,但缺乏医学图像分割所需的专业知识和视觉推理能力。因此,如何将推理能力融入到分割模型中,实现对复杂病灶的准确分割,是本文要解决的核心问题。

核心思路:CORE-Seg的核心思路是将推理过程融入到分割任务中,通过让模型学习如何像医生一样进行推理分析,从而提高分割的准确性和可解释性。具体来说,模型首先进行推理,生成对病灶的描述和分析,然后基于这些推理结果进行分割。这种方法模拟了医生诊断的过程,有助于模型更好地理解病灶的特征和结构。

技术框架:CORE-Seg是一个端到端的框架,主要包含以下几个模块:1) 语义引导提示适配器:用于将语义信息融入到视觉特征中,指导模型进行推理和分割。2) 从SFT到GRPO的渐进式训练策略:包括监督微调(SFT)和基于强化学习的策略优化(GRPO)两个阶段,逐步提升模型的推理和分割能力。3) 自适应双粒度奖励机制:用于解决强化学习中的奖励稀疏性问题,通过提供更细粒度的奖励信号,鼓励模型进行有效的推理和分割。

关键创新:CORE-Seg的关键创新在于将推理过程显式地融入到分割任务中,通过语义引导提示适配器和强化学习,让模型学习如何进行推理分析,从而提高分割的准确性和可解释性。与传统的分割模型相比,CORE-Seg不仅能够进行像素级别的分割,还能够提供对病灶的逻辑解释,这有助于医生更好地理解模型的分割结果。

关键设计:在训练过程中,采用了从SFT到GRPO的渐进式训练策略。SFT阶段使用ComLesion-14K数据集进行监督微调,让模型学习基本的推理和分割能力。GRPO阶段使用强化学习进行策略优化,通过自适应双粒度奖励机制,鼓励模型进行有效的推理和分割。奖励函数的设计至关重要,它需要能够准确地评估模型的推理和分割质量,并提供有效的反馈信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CORE-Seg在ComLesion-14K数据集上取得了显著的性能提升,平均Dice系数达到37.06%,比第二好的基线高出14.89%。同时,该方法还将分割失败率降低到18.42%。这些结果表明,CORE-Seg在复杂病灶分割方面具有显著的优势,能够有效提高分割的准确性和鲁棒性。

🎯 应用场景

CORE-Seg在医学图像分析领域具有广泛的应用前景,可用于辅助医生进行疾病诊断、治疗方案制定和疗效评估。该研究成果有助于提高复杂病灶分割的准确性和效率,减少误诊率,改善患者的治疗效果。未来,该方法有望推广到其他医学图像分析任务中,如肿瘤检测、器官分割等。

📄 摘要(原文)

Medical image segmentation is undergoing a paradigm shift from conventional visual pattern matching to cognitive reasoning analysis. Although Multimodal Large Language Models (MLLMs) have shown promise in integrating linguistic and visual knowledge, significant gaps remain: existing general MLLMs possess broad common sense but lack the specialized visual reasoning required for complex lesions, whereas traditional segmentation models excel at pixel-level segmentation but lack logical interpretability. In this paper, we introduce ComLesion-14K, the first diverse Chain-of-Thought (CoT) benchmark for reasoning-driven complex lesion segmentation. To accomplish this task, we propose CORE-Seg, an end-to-end framework integrating reasoning with segmentation through a Semantic-Guided Prompt Adapter. We design a progressive training strategy from SFT to GRPO, equipped with an adaptive dual-granularity reward mechanism to mitigate reward sparsity. Our Method achieves state-of-the-art results with a mean Dice of 37.06\% (14.89\% higher than the second-best baseline), while reducing the failure rate to 18.42\%. Project Page: https://xyxl024.github.io/CORE-Seg.github.io/