Discriminative Perception via Anchored Description for Reasoning Segmentation

📄 arXiv: 2603.04002v1 📥 PDF

作者: Tao Yang, Qing Zhou, Yanliang Li, Qi Wang

分类: cs.CV, cs.AI

发布日期: 2026-03-04

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出DPAD,通过锚定描述实现判别感知,提升推理分割性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推理分割 判别感知 强化学习 多模态学习 描述性字幕

📋 核心要点

  1. 现有推理分割方法缺乏对推理过程的判别性指导,导致模型推理链冗长且易偏离目标。
  2. DPAD通过生成目标对象的描述性字幕,并对比其与上下文的语义相关性,实现判别感知。
  3. 实验表明,DPAD显著提升了推理分割性能,在ReasonSeg数据集上cIoU提升3.09%,推理链长度减少42%。

📝 摘要(中文)

推理分割越来越多地采用强化学习来生成解释性推理链,以指导多模态大型语言模型。然而,这些几何奖励主要用于指导最终的定位,无法区分推理过程是否锚定在所指区域,或者偏离到不相关的上下文中。由于缺乏这种判别性指导,模型的推理常常演变成不聚焦且冗长的链条,最终无法在复杂场景中消除歧义并感知目标。因此,需要用判别感知来补充强化学习目标,即主动区分目标与其上下文的能力。为此,我们提出了DPAD,迫使模型生成所指对象的描述性字幕,然后通过对比字幕的语义相关性与所指对象和更广泛的上下文,来显式地进行区分。通过优化这种判别能力,模型被迫专注于目标的独特属性,从而产生更收敛和高效的推理链。描述性字幕也作为与分割对齐的可解释性依据。在基准测试上的实验证实了我们方法的有效性,带来了显著的性能提升,ReasonSeg上的cIoU提高了3.09%,推理链长度减少了约42%。代码可在https://github.com/mrazhou/DPAD获取。

🔬 方法详解

问题定义:现有基于强化学习的推理分割方法,虽然利用几何奖励指导最终定位,但无法保证推理过程始终围绕目标区域进行,容易受到无关上下文的干扰,导致推理链冗长、低效,最终影响分割精度。现有方法的痛点在于缺乏对推理过程的判别性约束,无法有效区分目标和背景。

核心思路:DPAD的核心思路是通过引入判别感知,迫使模型在推理过程中关注目标的独特属性,从而生成更聚焦、更高效的推理链。具体而言,模型需要生成目标对象的描述性字幕,并利用该字幕来区分目标和上下文,确保推理过程始终锚定在目标区域。

技术框架:DPAD的技术框架主要包含以下几个阶段:1) 模型接收图像和问题作为输入;2) 模型通过强化学习生成推理链,每一步都尝试定位或描述目标对象;3) 在每一步,模型生成目标对象的描述性字幕;4) 通过对比字幕与目标区域和上下文的语义相关性,计算判别性损失;5) 利用强化学习奖励和判别性损失共同优化模型,使其能够生成更准确、更聚焦的推理链。

关键创新:DPAD最重要的技术创新点在于引入了判别感知的概念,并将其融入到推理分割的强化学习框架中。与现有方法仅关注最终定位不同,DPAD强调在推理过程中对目标和上下文进行区分,从而避免推理过程偏离目标。通过生成描述性字幕并对比语义相关性,DPAD实现了对推理过程的显式判别性约束。

关键设计:DPAD的关键设计包括:1) 描述性字幕的生成方式,可以使用现有的图像描述模型;2) 语义相关性的计算方式,可以使用余弦相似度等方法;3) 判别性损失的计算方式,可以设计为对比损失,鼓励字幕与目标区域的语义相关性高于与上下文的语义相关性;4) 强化学习奖励和判别性损失的权重设置,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DPAD在ReasonSeg数据集上取得了显著的性能提升,cIoU提高了3.09%,推理链长度减少了约42%。这表明DPAD能够有效提升推理分割的准确性和效率,并生成更简洁、更聚焦的推理链。实验结果验证了DPAD的有效性,并表明其具有很强的竞争力。

🎯 应用场景

DPAD方法具有广泛的应用前景,可应用于智能监控、自动驾驶、医学图像分析等领域。通过提升推理分割的准确性和效率,DPAD可以帮助机器更好地理解复杂场景,从而实现更智能化的决策和控制。未来,DPAD还可以扩展到其他需要可解释性推理的任务中,例如视觉问答、图像编辑等。

📄 摘要(原文)

Reasoning segmentation increasingly employs reinforcement learning to generate explanatory reasoning chains that guide Multimodal Large Language Models. While these geometric rewards are primarily confined to guiding the final localization, they are incapable of discriminating whether the reasoning process remains anchored on the referred region or strays into irrelevant context. Lacking this discriminative guidance, the model's reasoning often devolves into unfocused and verbose chains that ultimately fail to disambiguate and perceive the target in complex scenes. This suggests a need to complement the RL objective with Discriminative Perception, an ability to actively distinguish a target from its context. To realize this, we propose DPAD to compel the model to generate a descriptive caption of the referred object, which is then used to explicitly discriminate by contrasting the caption's semantic relevance to the referred object against the wider context. By optimizing for this discriminative capability, the model is forced to focus on the unique attributes of the target, leading to a more converged and efficient reasoning chain. The descriptive caption also serves as an interpretability rationale that aligns with the segmentation. Experiments on the benchmarks confirm the validity of our approach, delivering substantial performance gains, with the cIoU on ReasonSeg increasing by 3.09% and the reasoning chain length decreasing by approximately 42%. Code is available at https://github.com/mrazhou/DPAD