LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning
作者: Md Kowsher, Haris Mansoor, Nusrat Jahan Prottasha, Ozlem Garibay, Victor Zhu, Zhengping Ji, Chen Chen
分类: cs.LG, cs.CL, cs.CV
发布日期: 2026-04-06
💡 一句话要点
提出LiME:一种轻量级混合专家模型,用于高效的多模态多任务学习。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 多任务学习 混合专家模型 参数高效微调 轻量级模型
📋 核心要点
- 现有MoE-PEFT方法参数量随专家数量线性增长,限制了其在多模态多任务学习中的应用。
- LiME通过轻量级调制实现专家特化,使用共享PEFT模块和专家向量调制输出,减少参数量。
- LiME在MMT-47上表现出竞争力,参数量减少4倍,训练速度提升29%。
📝 摘要(中文)
MoE-PEFT方法结合了混合专家模型和参数高效微调,以适应多任务学习。然而,它需要为每个专家配备单独的适配器,导致可训练参数随专家数量线性增长,并限制了其在基于适配器的架构上的应用。我们提出了LiME(轻量级混合专家模型),它通过轻量级调制而非适配器复制来实现专家特化。LiME使用单个共享的PEFT模块,并通过轻量级专家向量调制其输出,从而减少了专家参数,同时推广到任何PEFT方法。值得注意的是,LiME通过利用现有的冻结和适配表示引入了零参数路由,消除了通常每层所需的学习路由参数。理论上,我们证明了(i)更多的专家保留了更多与任务相关的信息,并且(ii)调制以有界误差近似于完全专家特定的PEFT。LiME进一步结合了n-gram窗口路由和基于路由置信度的自适应专家选择(Auto Top-K)。在MMT-47(一个包含跨文本、图像和视频的47个任务的多模态多任务基准)上的实验表明,与相应的MoE-PEFT基线相比,LiME在实现具有竞争力或更优越的性能的同时,使用的可训练参数最多减少4倍,训练速度最多提高29%。
🔬 方法详解
问题定义:论文旨在解决多模态多任务学习中,现有MoE-PEFT方法参数效率低下的问题。现有方法需要为每个专家配备单独的适配器,导致参数量随专家数量线性增长,计算开销大,难以扩展到大规模任务和模型。
核心思路:论文的核心思路是通过轻量级调制来实现专家特化,而非复制适配器。具体来说,使用一个共享的参数高效微调(PEFT)模块,并通过轻量级的专家向量来调制该模块的输出。这样,每个专家只需要少量的参数,从而显著降低了整体的参数量。
技术框架:LiME的整体框架包括以下几个主要模块:1) 共享的PEFT模块:用于对预训练模型进行参数高效的微调。2) 轻量级专家向量:每个专家对应一个向量,用于调制PEFT模块的输出。3) 零参数路由:利用现有的冻结和适配表示进行路由决策,无需额外的学习参数。4) n-gram窗口路由:利用n-gram信息进行更精细的路由。5) 自适应专家选择(Auto Top-K):根据路由置信度自适应地选择Top-K个专家。
关键创新:LiME的关键创新在于:1) 轻量级调制:通过专家向量调制共享PEFT模块的输出,显著降低了参数量。2) 零参数路由:利用现有表示进行路由,无需额外的学习参数。3) 自适应专家选择:根据路由置信度动态选择专家,提高了模型的灵活性和性能。
关键设计:LiME的关键设计包括:1) 专家向量的维度:需要根据任务的复杂度和模型的规模进行调整。2) 调制的方式:可以使用加法、乘法等不同的调制方式。3) n-gram窗口的大小:需要根据任务的特点进行选择。4) Auto Top-K的阈值:需要根据路由置信度的分布进行调整。
📊 实验亮点
在MMT-47基准测试中,LiME在保持甚至超越现有MoE-PEFT方法性能的同时,将可训练参数减少了高达4倍,并将训练速度提高了高达29%。这些结果表明,LiME是一种高效且有效的多模态多任务学习方法。
🎯 应用场景
LiME适用于各种多模态多任务学习场景,例如跨语言翻译、图像/视频理解、语音识别等。该方法可以有效降低模型参数量和计算成本,使其更容易部署在资源受限的设备上。未来,LiME可以进一步扩展到更大规模的模型和任务,并与其他参数高效微调技术相结合,以实现更好的性能。
📄 摘要(原文)
MoE-PEFT methods combine Mixture of Experts with parameter-efficient fine-tuning for multi-task adaptation, but require separate adapters per expert causing trainable parameters to scale linearly with expert count and limiting applicability to adapter-based architectures. We propose LiME (Lightweight Mixture of Experts), which achieves expert specialization through lightweight modulation rather than adapter replication. Instead of separate adapters, LiME uses a single shared PEFT module and modulates its output with lightweight expert vectors, reducing expert parameters while generalizing to any PEFT method. Notably, LiME introduces zero-parameter routing by leveraging existing frozen and adapted representations eliminating learned router parameters typically required per layer. Theoretically, we prove that (i) more experts preserve more task-relevant information and (ii) modulation approximates full expert-specific PEFT with bounded error. LiME further incorporates n-gram windowed routing and adaptive expert selection (Auto Top-K) based on routing confidence. Experiments on MMT-47, a multimodal multi-task benchmark with 47 tasks spanning text, image, and video, demonstrate that LiME achieves competitive or superior performance while using up to 4x fewer trainable parameters and up to 29% faster training compared to corresponding MoE-PEFT baselines.