LENS: Learning to Segment Anything with Unified Reinforced Reasoning

作者: Lianghui Zhu, Bin Ouyang, Yuxuan Zhang, Tianheng Cheng, Rui Hu, Haocheng Shen, Longjin Ran, Xiaoxin Chen, Li Yu, Wenyu Liu, Xinggang Wang

分类: cs.CV, cs.AI

发布日期: 2025-08-19 (更新: 2025-11-18)

备注: Code is released at https://github.com/hustvl/LENS

🔗 代码/项目: GITHUB

💡 一句话要点

提出LENS框架以解决文本提示图像分割中的推理不足问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像分割 强化学习 推理机制 多模态学习 视觉语言模型

📋 核心要点

现有的图像分割方法在处理文本提示时，缺乏有效的推理机制，导致在新场景中的表现不佳。
LENS框架通过强化学习联合优化推理和分割过程，采用统一的奖励机制来提升模型的推理能力和分割质量。
在多个基准测试中，LENS的表现显著优于传统微调方法，验证了其在文本提示分割中的有效性和实用性。

📝 摘要（中文）

文本提示的图像分割对于细粒度视觉理解至关重要，尤其在人机交互和机器人领域。然而，现有的监督微调方法在测试时通常忽视显式的推理过程，限制了其在未见提示和领域中的泛化能力。为了解决这一问题，本文提出了LENS，一个可扩展的强化学习框架，能够端到端地优化推理过程和分割。我们提出了统一的强化学习奖励机制，涵盖句子、框和分割级别的线索，鼓励模型生成信息丰富的推理理由，同时提升掩膜质量。使用一个公开的30亿参数的视觉语言模型，LENS在RefCOCO、RefCOCO+和RefCOCOg基准上实现了81.2%的平均cIoU，超越了强大的微调方法GLaMM，提升幅度达到5.6%。这些结果表明，基于强化学习的推理显著增强了文本提示的分割能力，为更具泛化能力的Segment Anything模型提供了实际路径。

🔬 方法详解

问题定义：本文旨在解决现有文本提示图像分割方法在推理过程中的不足，尤其是在未见提示和领域中的泛化能力差的问题。现有方法通常依赖于静态的微调策略，缺乏动态推理能力。

核心思路：LENS框架的核心思路是通过强化学习来联合优化推理和分割过程。通过引入统一的奖励机制，模型能够在生成分割掩膜的同时，进行有效的推理，从而提升整体性能。

技术框架：LENS的整体架构包括三个主要模块：推理模块、分割模块和奖励机制。推理模块负责生成推理理由，分割模块则生成最终的分割掩膜，而奖励机制则根据推理和分割的质量进行反馈，指导模型的学习过程。

关键创新：LENS的主要创新在于引入了统一的强化学习奖励机制，涵盖了句子、框和分割级别的线索。这种设计使得模型能够在生成分割掩膜的同时，进行有效的推理，从而显著提升了分割质量。

关键设计：在模型设计中，采用了30亿参数的视觉语言模型Qwen2.5-VL-3B-Instruct，并通过精心设计的损失函数和参数设置，确保模型在推理和分割任务中能够达到最佳性能。

📊 实验亮点

LENS在RefCOCO、RefCOCO+和RefCOCOg基准上实现了81.2%的平均cIoU，相较于微调方法GLaMM提升了5.6%。这一结果表明，基于强化学习的推理机制显著增强了文本提示分割的效果，具有重要的研究价值。

🎯 应用场景

LENS框架在人机交互、机器人视觉和自动驾驶等领域具有广泛的应用潜力。通过提升文本提示图像分割的准确性和泛化能力，LENS能够为智能系统提供更为精准的视觉理解，推动相关技术的发展和应用。

📄 摘要（原文）

Text-prompted image segmentation enables fine-grained visual understanding and is critical for applications such as human-computer interaction and robotics. However, existing supervised fine-tuning methods typically ignore explicit chain-of-thought (CoT) reasoning at test time, which limits their ability to generalize to unseen prompts and domains. To address this issue, we introduce LENS, a scalable reinforcement-learning framework that jointly optimizes the reasoning process and segmentation in an end-to-end manner. We propose unified reinforcement-learning rewards that span sentence-, box-, and segment-level cues, encouraging the model to generate informative CoT rationales while refining mask quality. Using a publicly available 3-billion-parameter vision-language model, i.e., Qwen2.5-VL-3B-Instruct, LENS achieves an average cIoU of 81.2% on the RefCOCO, RefCOCO+, and RefCOCOg benchmarks, outperforming the strong fine-tuned method, i.e., GLaMM, by up to 5.6%. These results demonstrate that RL-driven CoT reasoning significantly enhances text-prompted segmentation and offers a practical path toward more generalizable Segment Anything models (SAM). Code is available at https://github.com/hustvl/LENS.

LENS: Learning to Segment Anything with Unified Reinforced Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册