TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

📄 arXiv: 2603.04772v1 📥 PDF

作者: Yebo Wu, Feng Liu, Ziwei Xie, Zhiyuan Liu, Changwang Zhang, Jun Wang, Li Li

分类: cs.CL, cs.AI

发布日期: 2026-03-05


💡 一句话要点

TSEmbed:通过解耦任务目标实现通用多模态嵌入的任务扩展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态嵌入 混合专家模型 低秩适应 负采样 任务解耦

📋 核心要点

  1. 多模态大语言模型在转化为通用嵌入模型时,面临着任务冲突的挑战,限制了其应用。
  2. TSEmbed框架结合混合专家模型和低秩适应,显式解耦任务目标,缓解任务冲突。
  3. 提出的专家感知负采样策略,动态选择难负样本,提升模型区分能力,并在多个数据集上取得SOTA性能。

📝 摘要(中文)

多模态大型语言模型(MLLM)虽然具有卓越的推理能力,但由于任务冲突,它们在通用嵌入模型中的应用受到显著阻碍。为了解决这个问题,我们提出了TSEmbed,一个通用多模态嵌入框架,它将混合专家(MoE)与低秩适应(LoRA)相结合,以显式地解耦冲突的任务目标。此外,我们引入了专家感知负采样(EANS),这是一种新颖的策略,它利用专家路由分布作为语义相似性的内在代理。通过动态地优先考虑与查询共享专家激活模式的信息丰富的难负样本,EANS有效地提高了模型的区分能力并细化了嵌入边界。为了确保训练稳定性,我们进一步设计了一个两阶段学习范式,该范式在通过EANS优化表示之前巩固了专家的专业化。TSEmbed在海量多模态嵌入基准(MMEB)和真实工业生产数据集上都实现了最先进的性能,为通用多模态嵌入中的任务级扩展奠定了基础。

🔬 方法详解

问题定义:现有通用多模态嵌入模型在处理多任务时,不同任务的目标之间存在冲突,导致模型性能下降。现有的方法难以有效地解耦这些冲突,从而限制了模型在多任务场景下的扩展能力。

核心思路:TSEmbed的核心思路是通过混合专家模型(MoE)将不同的任务分配给不同的专家,从而实现任务的解耦。同时,利用低秩适应(LoRA)来减少参数量,提高训练效率。此外,通过专家感知负采样(EANS)策略,选择与查询更相关的负样本,从而提高模型的区分能力。

技术框架:TSEmbed框架主要包含以下几个模块:1) 多模态输入编码器:用于将不同模态的数据编码成统一的向量表示。2) 混合专家模型(MoE):包含多个专家网络,每个专家负责处理特定的任务。3) 低秩适应(LoRA):用于减少专家网络的参数量。4) 专家感知负采样(EANS):用于选择与查询更相关的负样本。5) 两阶段训练策略:首先训练专家网络的专业化能力,然后通过EANS优化表示。

关键创新:TSEmbed的关键创新在于:1) 将混合专家模型(MoE)与低秩适应(LoRA)相结合,显式地解耦冲突的任务目标。2) 提出了专家感知负采样(EANS)策略,利用专家路由分布作为语义相似性的内在代理,动态地选择难负样本。3) 设计了两阶段训练策略,保证了训练的稳定性。与现有方法相比,TSEmbed能够更有效地解耦任务目标,提高模型的区分能力和泛化能力。

关键设计:1) 混合专家模型(MoE)的专家数量和容量需要根据具体任务进行调整。2) 低秩适应(LoRA)的秩的大小需要根据参数量和性能进行权衡。3) 专家感知负采样(EANS)的负样本数量和选择策略需要根据数据集的特点进行调整。4) 两阶段训练策略的训练轮数和学习率需要根据模型的收敛情况进行调整。损失函数通常采用对比损失或三元组损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TSEmbed在MMEB基准测试中取得了SOTA性能,显著优于现有方法。在真实工业生产数据集上的实验结果表明,TSEmbed能够有效地提高模型的区分能力和泛化能力。例如,在图像检索任务中,TSEmbed的Recall@1指标提升了5%以上。

🎯 应用场景

TSEmbed在通用多模态嵌入领域具有广泛的应用前景,例如图像检索、视频检索、跨模态检索等。它可以应用于电商、社交媒体、搜索引擎等多个领域,提升用户体验和信息检索效率。未来,TSEmbed可以进一步扩展到更多的模态和任务,构建更加强大的通用多模态嵌入模型。

📄 摘要(原文)

Despite the exceptional reasoning capabilities of Multimodal Large Language Models (MLLMs), their adaptation into universal embedding models is significantly impeded by task conflict. To address this, we propose TSEmbed, a universal multimodal embedding framework that synergizes Mixture-of-Experts (MoE) with Low-Rank Adaptation (LoRA) to explicitly disentangle conflicting task objectives. Moreover, we introduce Expert-Aware Negative Sampling (EANS), a novel strategy that leverages expert routing distributions as an intrinsic proxy for semantic similarity. By dynamically prioritizing informative hard negatives that share expert activation patterns with the query, EANS effectively sharpens the model's discriminative power and refines embedding boundaries. To ensure training stability, we further devise a two-stage learning paradigm that solidifies expert specialization before optimizing representations via EANS. TSEmbed achieves state-of-the-art performance on both the Massive Multimodal Embedding Benchmark (MMEB) and real-world industrial production datasets, laying a foundation for task-level scaling in universal multimodal embeddings.