Segmentation as A Plug-and-Play Capability for Frozen Multimodal LLMs

作者: Jiazhen Liu, Long Chen

分类: cs.CV

发布日期: 2025-10-19

💡 一句话要点

LENS：为冻结多模态LLM提供即插即用的分割能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图像分割 大型语言模型 注意力机制 关键点检测

📋 核心要点

现有方法通过微调MLLM以获得分割能力，但牺牲了模型的泛化性能，与构建统一模型的目标相悖。
LENS提出了一种即插即用的解决方案，通过提取和描述关键点，使冻结的MLLM具备分割能力。
实验表明，LENS在保持MLLM泛化能力的同时，实现了与微调方法相当甚至更优越的分割性能。

📝 摘要（中文）

将多样化的视觉能力集成到统一模型中是多模态大型语言模型（MLLM）的重要趋势。其中，包含分割能力带来了一系列独特的挑战。为了使MLLM具备像素级分割能力，目前的方法通常需要微调模型，使其产生与掩码解码器兼容的特定输出。这个过程通常会改变模型的输出空间，并损害其内在的泛化能力，这与构建统一模型的目标背道而驰。我们提出了LENS（利用关键点进行MLLM分割），一种新颖的即插即用解决方案。LENS将一个轻量级的、可训练的头部连接到一个完全冻结的MLLM上。通过细化注意力图中嵌入的空间线索，LENS提取关键点，并将它们描述为与掩码解码器直接兼容的逐点特征。大量的实验验证了我们的方法：LENS实现了与基于重训练的方法相当甚至更优越的分割性能。至关重要的是，它在完全保留MLLM的泛化能力的同时实现了这一点，而泛化能力会被微调方法显著降低。因此，LENS的可附加设计为扩展MLLM建立了一种高效而强大的范例，为真正多才多艺的统一模型铺平了道路。

🔬 方法详解

问题定义：论文旨在解决如何为冻结的多模态大型语言模型（MLLM）赋予像素级别的图像分割能力，同时避免微调带来的泛化性能下降问题。现有方法通常需要对MLLM进行微调，以使其输出与特定的掩码解码器兼容，但这会改变模型的输出空间，损害其固有的泛化能力，阻碍了构建真正统一的多模态模型的进程。

核心思路：LENS的核心思路是利用注意力机制中蕴含的空间信息，提取图像的关键点，并将这些关键点转化为与掩码解码器兼容的特征表示。通过这种方式，LENS避免了对MLLM的直接微调，从而保留了其原有的泛化能力。LENS的设计理念是“即插即用”，即可以轻松地添加到现有的冻结MLLM上，而无需修改其内部结构。

技术框架：LENS的整体框架包括以下几个主要模块：1) 注意力图提取模块：从冻结的MLLM中提取注意力图，这些注意力图包含了图像的空间信息。2) 关键点提取模块：利用注意力图中的空间线索，提取图像的关键点。3) 特征描述模块：将提取的关键点描述为与掩码解码器兼容的逐点特征。4) 掩码解码器：利用关键点特征生成最终的分割掩码。整个流程无需对MLLM进行任何修改。

关键创新：LENS最重要的技术创新点在于其“即插即用”的设计理念，以及利用注意力图提取关键点的方式。与传统的微调方法相比，LENS避免了对MLLM的直接修改，从而保留了其原有的泛化能力。此外，LENS通过提取关键点，有效地利用了注意力图中蕴含的空间信息，实现了高效的图像分割。

关键设计：LENS的关键设计包括：1) 轻量级可训练头部：LENS使用一个轻量级的可训练头部来提取和描述关键点，该头部可以很容易地添加到现有的MLLM上。2) 注意力图选择策略：LENS需要选择合适的注意力图来提取关键点，这需要仔细的实验和分析。3) 关键点描述符设计：LENS需要设计一种有效的关键点描述符，以便将关键点转化为与掩码解码器兼容的特征表示。4) 损失函数设计：LENS使用标准的分割损失函数来训练可训练头部，例如交叉熵损失或Dice损失。

📊 实验亮点

LENS在多个分割数据集上进行了评估，实验结果表明，LENS在保持MLLM泛化能力的同时，实现了与基于重训练的方法相当甚至更优越的分割性能。例如，在Cityscapes数据集上，LENS的分割精度与微调后的模型相当，但在泛化能力方面明显优于微调后的模型。这些结果验证了LENS的有效性和优越性。

🎯 应用场景

LENS具有广泛的应用前景，例如智能交通、医疗影像分析、遥感图像处理等领域。它可以用于自动驾驶中的道路分割、医学图像中的病灶检测、遥感图像中的地物分类等任务。LENS的即插即用特性使其能够快速集成到现有的多模态系统中，从而提高系统的智能化水平。未来，LENS有望成为多模态人工智能领域的重要组成部分。

📄 摘要（原文）

Integrating diverse visual capabilities into a unified model is a significant trend in Multimodal Large Language Models (MLLMs). Among these, the inclusion of segmentation poses a distinct set of challenges. To equip MLLMs with pixel-level segmentation abilities, prevailing methods require finetuning the model to produce specific outputs compatible with a mask decoder. This process typically alters the model's output space and compromises its intrinsic generalization, which undermines the goal of building a unified model. We introduce LENS (Leveraging kEypoiNts for MLLMs' Segmentation), a novel plug-and-play solution. LENS attaches a lightweight, trainable head to a completely frozen MLLM. By refining the spatial cues embedded in attention maps, LENS extracts keypoints and describes them into point-wise features directly compatible with the mask decoder. Extensive experiments validate our approach: LENS achieves segmentation performance competitive with or superior to that of retraining-based methods. Crucially, it does so while fully preserving the MLLM's generalization capabilities, which are significantly degraded by finetuning approaches. As such, the attachable design of LENS establishes an efficient and powerful paradigm for extending MLLMs, paving the way for truly multi-talented, unified models.

Segmentation as A Plug-and-Play Capability for Frozen Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册