CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval

作者: Zhipeng Qian, Zihan Liang, Yufei Ma, Ben Chen, Huangyu Dai, Yiwei Ma, Jiayi Ji, Chenyi Lei, Han Li, Xiaoshuai Sun

分类: cs.CV, cs.AI

发布日期: 2026-01-07

💡 一句话要点

提出CSMCIR，通过对称对齐和记忆库增强组合图像检索性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 跨模态学习 对称架构 思维链 记忆库

📋 核心要点

现有组合图像检索方法因模态异构性导致表征空间错位，限制了检索性能。
CSMCIR通过多级思维链提示、对称双塔架构和动态记忆库实现高效的查询-目标对齐。
实验表明，CSMCIR在多个数据集上取得了SOTA性能，并具有更高的训练效率。

📝 摘要（中文）

组合图像检索(CIR)允许用户通过参考图像和文本指令搜索目标图像，优于单模态检索系统。现有CIR方法存在表征空间碎片化问题：查询和目标包含异构模态，由不同的编码器处理，模型只能通过事后对齐来弥合错位的表征空间，限制了检索性能。这种架构不对称性导致特征空间中出现三个分离的簇，表明异构模态从初始化开始就创建了错位的表征空间。本文提出CSMCIR，一个统一的表征框架，通过三个协同组件实现高效的查询-目标对齐。首先，引入多级思维链(MCoT)提示策略，引导多模态大语言模型为目标图像生成判别性的、语义兼容的标题，建立模态对称性。其次，设计对称的双塔架构，查询和目标端都使用相同的共享参数Q-Former进行跨模态编码，确保一致的特征表征，进一步缩小对齐差距。最后，这种架构对称性支持基于熵的、时序动态的记忆库策略，提供高质量的负样本，同时保持与模型状态的一致性。在四个基准数据集上的实验表明，CSMCIR实现了最先进的性能和卓越的训练效率。全面的消融研究进一步验证了每个组件的有效性。

🔬 方法详解

问题定义：组合图像检索（CIR）旨在根据给定的参考图像和文本描述，从图像库中检索出符合要求的图像。现有方法的痛点在于，查询（图像+文本）和目标图像由不同的编码器处理，导致特征空间不对齐，模型需要通过复杂的后处理对齐，效率低且效果有限。这种不对称性使得模型难以学习到有效的跨模态表征。

核心思路：CSMCIR的核心思路是建立查询和目标之间的对称性，从而消除表征空间的不对齐。具体来说，通过多级思维链（MCoT）提示策略，利用多模态大语言模型为目标图像生成语义兼容的标题，将目标图像也转化为“图像+文本”的形式，与查询在模态上保持一致。然后，使用共享参数的Q-Former进行跨模态编码，进一步保证特征表示的一致性。

技术框架：CSMCIR采用对称的双塔架构。查询端输入参考图像和文本描述，目标端输入目标图像及其生成的标题。两端都使用相同的Q-Former进行跨模态特征编码。此外，还引入了基于熵的动态记忆库，用于存储高质量的负样本，辅助模型训练。整体流程包括：1) MCoT生成目标图像标题；2) Q-Former进行跨模态编码；3) 计算查询和目标之间的相似度；4) 利用记忆库中的负样本进行对比学习。

关键创新：CSMCIR的关键创新在于其对称的架构设计和多级思维链提示策略。通过MCoT，将目标图像转化为“图像+文本”的形式，消除了查询和目标之间的模态差异。共享参数的Q-Former进一步保证了特征表示的一致性。这种对称性是与现有方法最本质的区别，现有方法通常采用非对称的架构，导致表征空间不对齐。

关键设计：MCoT提示策略包含多个层级，逐步引导大语言模型生成更准确、更具判别性的标题。Q-Former采用共享参数的设计，确保查询和目标端的特征表示具有可比性。动态记忆库根据样本的熵值选择高质量的负样本，并随着模型训练的进行不断更新。损失函数采用对比学习损失，鼓励相似的查询和目标在特征空间中靠近，不相似的查询和目标远离。

📊 实验亮点

CSMCIR在四个基准数据集上取得了SOTA性能。例如，在FashionIQ数据集上，CSMCIR的Recall@1指标相比现有最佳方法提升了超过3%。此外，CSMCIR还具有更高的训练效率，能够在更短的时间内达到相同的性能水平。消融实验验证了MCoT、对称架构和动态记忆库等各个组件的有效性。

🎯 应用场景

CSMCIR可应用于电商平台的商品检索、图像编辑和生成、智能安防等领域。例如，用户可以通过上传一张参考图像和一段文本描述（如“颜色更鲜艳”），快速检索到符合要求的商品或生成修改后的图像。该研究有助于提升跨模态检索的准确性和效率，具有重要的实际应用价值。

📄 摘要（原文）

Composed Image Retrieval (CIR) enables users to search for target images using both a reference image and manipulation text, offering substantial advantages over single-modality retrieval systems. However, existing CIR methods suffer from representation space fragmentation: queries and targets comprise heterogeneous modalities and are processed by distinct encoders, forcing models to bridge misaligned representation spaces only through post-hoc alignment, which fundamentally limits retrieval performance. This architectural asymmetry manifests as three distinct, well-separated clusters in the feature space, directly demonstrating how heterogeneous modalities create fundamentally misaligned representation spaces from initialization. In this work, we propose CSMCIR, a unified representation framework that achieves efficient query-target alignment through three synergistic components. First, we introduce a Multi-level Chain-of-Thought (MCoT) prompting strategy that guides Multimodal Large Language Models to generate discriminative, semantically compatible captions for target images, establishing modal symmetry. Building upon this, we design a symmetric dual-tower architecture where both query and target sides utilize the identical shared-parameter Q-Former for cross-modal encoding, ensuring consistent feature representations and further reducing the alignment gap. Finally, this architectural symmetry enables an entropy-based, temporally dynamic Memory Bank strategy that provides high-quality negative samples while maintaining consistency with the evolving model state. Extensive experiments on four benchmark datasets demonstrate that our CSMCIR achieves state-of-the-art performance with superior training efficiency. Comprehensive ablation studies further validate the effectiveness of each proposed component.

CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册