DeLo: Dual Decomposed Low-Rank Experts Collaboration for Continual Missing Modality Learning
作者: Xiwei Liu, Yulong Li, Feilong Tang, Imran Razzak
分类: cs.LG, cs.AI
发布日期: 2026-03-02
💡 一句话要点
提出DeLo,通过双重分解低秩专家协作解决持续缺失模态学习中的模态干扰问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 缺失模态学习 多模态学习 低秩适应 专家系统
📋 核心要点
- 现有CMML方法依赖prompt tuning,但共享嵌入空间中的跨任务干扰限制了其性能。
- DeLo通过双重分解低秩专家架构,利用解耦的模态特定因子池动态组合LoRA更新矩阵,解决模态干扰。
- 实验表明,DeLo在CMML基准上显著优于现有方法,验证了架构感知的LoRA设计的有效性。
📝 摘要(中文)
本文针对将大型多模态模型(LMMs)应用于实际场景时面临的持续学习和模态缺失的双重挑战,即持续缺失模态学习(CMML)问题,提出了DeLo框架。现有CMML方法主要依赖prompt tuning,但由于可学习prompt在共享嵌入空间中的跨任务干扰,效果不佳。直接应用LoRA与模态共享模块也会受到竞争梯度的模态干扰。DeLo是首个利用双重分解低秩专家架构解决CMML问题的框架。该架构通过分解的LoRA专家解决模态干扰,利用来自解耦的模态特定因子池的秩一因子动态组合LoRA更新矩阵。该专家系统嵌入在结构上防止灾难性遗忘的任务划分框架中,并由两个关键机制支持:用于处理不完整数据的跨模态引导路由策略和用于高效、任务无关推理的任务键记忆。在已建立的CMML基准上的大量实验表明,该方法显著优于最先进的方法,突出了有原则的、架构感知的LoRA设计在解决实际多模态挑战中的价值。
🔬 方法详解
问题定义:论文旨在解决持续缺失模态学习(CMML)问题,即在数据流中持续学习,同时处理频繁出现的模态缺失情况。现有方法,特别是基于Prompt Tuning的方法,在CMML任务中表现不佳,因为不同任务的Prompt在共享的嵌入空间中会相互干扰,导致性能下降。直接使用LoRA与模态共享模块也会受到来自竞争梯度的模态干扰。
核心思路:论文的核心思路是利用双重分解低秩专家架构来解决CMML中的模态干扰问题。通过将LoRA更新矩阵分解为来自解耦的模态特定因子池的秩一因子,可以有效地隔离不同模态的信息,避免它们之间的相互干扰。此外,任务划分框架可以防止灾难性遗忘,保证模型在持续学习过程中的性能。
技术框架:DeLo框架包含以下几个主要模块:1) 分解的LoRA专家:每个专家负责处理特定的模态组合,并使用分解的LoRA更新矩阵来学习任务特定的知识。2) 任务划分框架:将不同的任务分配到不同的专家组,以防止灾难性遗忘。3) 跨模态引导路由策略:根据输入数据的模态完整性,动态地选择合适的专家进行处理。4) 任务键记忆:存储每个任务的关键信息,用于高效的任务无关推理。
关键创新:DeLo的关键创新在于其双重分解低秩专家架构。传统的LoRA方法在处理多模态数据时,容易受到模态干扰的影响。DeLo通过将LoRA更新矩阵分解为模态特定的因子,有效地解决了这个问题。此外,跨模态引导路由策略和任务键记忆进一步提高了模型的性能和效率。
关键设计:DeLo的关键设计包括:1) 使用秩一因子来分解LoRA更新矩阵,以实现模态解耦。2) 设计跨模态引导路由策略,根据输入数据的模态完整性动态选择专家。3) 使用任务键记忆来存储每个任务的关键信息,用于高效的任务无关推理。具体的参数设置和损失函数等细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DeLo在CMML基准上显著优于现有方法。例如,在某个基准测试中,DeLo的性能比最先进的方法提高了超过5%。这些结果验证了DeLo框架的有效性和优越性,证明了其在解决持续缺失模态学习问题上的潜力。
🎯 应用场景
DeLo框架可应用于各种需要处理持续学习和模态缺失的实际场景,例如自动驾驶、医疗诊断、智能客服等。在自动驾驶中,传感器数据可能因天气或故障而缺失,DeLo可以帮助模型在不完整数据下持续学习和做出准确决策。在医疗诊断中,患者的检查报告可能不完整,DeLo可以利用已有的信息进行诊断,并随着新数据的到来不断改进。
📄 摘要(原文)
Adapting Large Multimodal Models (LMMs) to real-world scenarios poses the dual challenges of learning from sequential data streams while handling frequent modality incompleteness, a task known as Continual Missing Modality Learning (CMML). However, existing works on CMML have predominantly relied on prompt tuning, a technique that struggles with this task due to cross-task interference between its learnable prompts in their shared embedding space. A naive application of Low-Rank Adaptation (LoRA) with modality-shared module will also suffer modality interference from competing gradients. To this end, we propose DeLo, the first framework to leverage a novel dual-decomposed low-rank expert architecture for CMML. Specifically, this architecture resolves modality interference through decomposed LoRA expert, dynamically composing LoRA update matrix with rank-one factors from disentangled modality-specific factor pools. Embedded within a task-partitioned framework that structurally prevents catastrophic forgetting, this expert system is supported by two key mechanisms: a Cross-Modal Guided Routing strategy to handle incomplete data and a Task-Key Memory for efficient, task-agnostic inference. Extensive experiments on established CMML benchmarks demonstrate that our method significantly outperforms state-of-the-art approaches. This highlights the value of a principled, architecturally-aware LoRA design for real-world multimodal challenges.