CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval

📄 arXiv: 2601.03728v1 📥 PDF

作者: Zhipeng Qian, Zihan Liang, Yufei Ma, Ben Chen, Huangyu Dai, Yiwei Ma, Jiayi Ji, Chenyi Lei, Han Li, Xiaoshuai Sun

分类: cs.CV, cs.AI

发布日期: 2026-01-07


💡 一句话要点

提出CSMCIR,通过对称对齐和记忆库增强组合图像检索性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 跨模态学习 对称架构 思维链 记忆库

📋 核心要点

  1. 现有组合图像检索方法因模态异构性导致表征空间错位,限制了检索性能。
  2. CSMCIR通过多级思维链提示、对称双塔架构和动态记忆库实现高效的查询-目标对齐。
  3. 实验表明,CSMCIR在多个数据集上取得了SOTA性能,并具有更高的训练效率。

📝 摘要(中文)

组合图像检索(CIR)允许用户通过参考图像和文本指令搜索目标图像,优于单模态检索系统。现有CIR方法存在表征空间碎片化问题:查询和目标包含异构模态,由不同的编码器处理,模型只能通过事后对齐来弥合错位的表征空间,限制了检索性能。这种架构不对称性导致特征空间中出现三个分离的簇,表明异构模态从初始化开始就创建了错位的表征空间。本文提出CSMCIR,一个统一的表征框架,通过三个协同组件实现高效的查询-目标对齐。首先,引入多级思维链(MCoT)提示策略,引导多模态大语言模型为目标图像生成判别性的、语义兼容的标题,建立模态对称性。其次,设计对称的双塔架构,查询和目标端都使用相同的共享参数Q-Former进行跨模态编码,确保一致的特征表征,进一步缩小对齐差距。最后,这种架构对称性支持基于熵的、时序动态的记忆库策略,提供高质量的负样本,同时保持与模型状态的一致性。在四个基准数据集上的实验表明,CSMCIR实现了最先进的性能和卓越的训练效率。全面的消融研究进一步验证了每个组件的有效性。

🔬 方法详解

问题定义:组合图像检索(CIR)旨在根据给定的参考图像和文本描述,从图像库中检索出符合要求的图像。现有方法的痛点在于,查询(图像+文本)和目标图像由不同的编码器处理,导致特征空间不对齐,模型需要通过复杂的后处理对齐,效率低且效果有限。这种不对称性使得模型难以学习到有效的跨模态表征。

核心思路:CSMCIR的核心思路是建立查询和目标之间的对称性,从而消除表征空间的不对齐。具体来说,通过多级思维链(MCoT)提示策略,利用多模态大语言模型为目标图像生成语义兼容的标题,将目标图像也转化为“图像+文本”的形式,与查询在模态上保持一致。然后,使用共享参数的Q-Former进行跨模态编码,进一步保证特征表示的一致性。

技术框架:CSMCIR采用对称的双塔架构。查询端输入参考图像和文本描述,目标端输入目标图像及其生成的标题。两端都使用相同的Q-Former进行跨模态特征编码。此外,还引入了基于熵的动态记忆库,用于存储高质量的负样本,辅助模型训练。整体流程包括:1) MCoT生成目标图像标题;2) Q-Former进行跨模态编码;3) 计算查询和目标之间的相似度;4) 利用记忆库中的负样本进行对比学习。

关键创新:CSMCIR的关键创新在于其对称的架构设计和多级思维链提示策略。通过MCoT,将目标图像转化为“图像+文本”的形式,消除了查询和目标之间的模态差异。共享参数的Q-Former进一步保证了特征表示的一致性。这种对称性是与现有方法最本质的区别,现有方法通常采用非对称的架构,导致表征空间不对齐。

关键设计:MCoT提示策略包含多个层级,逐步引导大语言模型生成更准确、更具判别性的标题。Q-Former采用共享参数的设计,确保查询和目标端的特征表示具有可比性。动态记忆库根据样本的熵值选择高质量的负样本,并随着模型训练的进行不断更新。损失函数采用对比学习损失,鼓励相似的查询和目标在特征空间中靠近,不相似的查询和目标远离。

📊 实验亮点

CSMCIR在四个基准数据集上取得了SOTA性能。例如,在FashionIQ数据集上,CSMCIR的Recall@1指标相比现有最佳方法提升了超过3%。此外,CSMCIR还具有更高的训练效率,能够在更短的时间内达到相同的性能水平。消融实验验证了MCoT、对称架构和动态记忆库等各个组件的有效性。

🎯 应用场景

CSMCIR可应用于电商平台的商品检索、图像编辑和生成、智能安防等领域。例如,用户可以通过上传一张参考图像和一段文本描述(如“颜色更鲜艳”),快速检索到符合要求的商品或生成修改后的图像。该研究有助于提升跨模态检索的准确性和效率,具有重要的实际应用价值。

📄 摘要(原文)

Composed Image Retrieval (CIR) enables users to search for target images using both a reference image and manipulation text, offering substantial advantages over single-modality retrieval systems. However, existing CIR methods suffer from representation space fragmentation: queries and targets comprise heterogeneous modalities and are processed by distinct encoders, forcing models to bridge misaligned representation spaces only through post-hoc alignment, which fundamentally limits retrieval performance. This architectural asymmetry manifests as three distinct, well-separated clusters in the feature space, directly demonstrating how heterogeneous modalities create fundamentally misaligned representation spaces from initialization. In this work, we propose CSMCIR, a unified representation framework that achieves efficient query-target alignment through three synergistic components. First, we introduce a Multi-level Chain-of-Thought (MCoT) prompting strategy that guides Multimodal Large Language Models to generate discriminative, semantically compatible captions for target images, establishing modal symmetry. Building upon this, we design a symmetric dual-tower architecture where both query and target sides utilize the identical shared-parameter Q-Former for cross-modal encoding, ensuring consistent feature representations and further reducing the alignment gap. Finally, this architectural symmetry enables an entropy-based, temporally dynamic Memory Bank strategy that provides high-quality negative samples while maintaining consistency with the evolving model state. Extensive experiments on four benchmark datasets demonstrate that our CSMCIR achieves state-of-the-art performance with superior training efficiency. Comprehensive ablation studies further validate the effectiveness of each proposed component.