LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

作者: Md Kowsher, Haris Mansoor, Nusrat Jahan Prottasha, Ozlem Garibay, Victor Zhu, Zhengping Ji, Chen Chen

分类: cs.LG, cs.CL, cs.CV

发布日期: 2026-04-06

💡 一句话要点

提出LiME：一种轻量级混合专家模型，用于高效的多模态多任务学习。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 多任务学习 混合专家模型 参数高效微调 轻量级模型

📋 核心要点

现有MoE-PEFT方法参数量随专家数量线性增长，限制了其在多模态多任务学习中的应用。
LiME通过轻量级调制实现专家特化，使用共享PEFT模块和专家向量调制输出，减少参数量。
LiME在MMT-47上表现出竞争力，参数量减少4倍，训练速度提升29%。

📝 摘要（中文）

MoE-PEFT方法结合了混合专家模型和参数高效微调，以适应多任务学习。然而，它需要为每个专家配备单独的适配器，导致可训练参数随专家数量线性增长，并限制了其在基于适配器的架构上的应用。我们提出了LiME（轻量级混合专家模型），它通过轻量级调制而非适配器复制来实现专家特化。LiME使用单个共享的PEFT模块，并通过轻量级专家向量调制其输出，从而减少了专家参数，同时推广到任何PEFT方法。值得注意的是，LiME通过利用现有的冻结和适配表示引入了零参数路由，消除了通常每层所需的学习路由参数。理论上，我们证明了（i）更多的专家保留了更多与任务相关的信息，并且（ii）调制以有界误差近似于完全专家特定的PEFT。LiME进一步结合了n-gram窗口路由和基于路由置信度的自适应专家选择（Auto Top-K）。在MMT-47（一个包含跨文本、图像和视频的47个任务的多模态多任务基准）上的实验表明，与相应的MoE-PEFT基线相比，LiME在实现具有竞争力或更优越的性能的同时，使用的可训练参数最多减少4倍，训练速度最多提高29%。

🔬 方法详解

问题定义：论文旨在解决多模态多任务学习中，现有MoE-PEFT方法参数效率低下的问题。现有方法需要为每个专家配备单独的适配器，导致参数量随专家数量线性增长，计算开销大，难以扩展到大规模任务和模型。

核心思路：论文的核心思路是通过轻量级调制来实现专家特化，而非复制适配器。具体来说，使用一个共享的参数高效微调（PEFT）模块，并通过轻量级的专家向量来调制该模块的输出。这样，每个专家只需要少量的参数，从而显著降低了整体的参数量。

技术框架：LiME的整体框架包括以下几个主要模块：1) 共享的PEFT模块：用于对预训练模型进行参数高效的微调。2) 轻量级专家向量：每个专家对应一个向量，用于调制PEFT模块的输出。3) 零参数路由：利用现有的冻结和适配表示进行路由决策，无需额外的学习参数。4) n-gram窗口路由：利用n-gram信息进行更精细的路由。5) 自适应专家选择（Auto Top-K）：根据路由置信度自适应地选择Top-K个专家。

关键创新：LiME的关键创新在于：1) 轻量级调制：通过专家向量调制共享PEFT模块的输出，显著降低了参数量。2) 零参数路由：利用现有表示进行路由，无需额外的学习参数。3) 自适应专家选择：根据路由置信度动态选择专家，提高了模型的灵活性和性能。

关键设计：LiME的关键设计包括：1) 专家向量的维度：需要根据任务的复杂度和模型的规模进行调整。2) 调制的方式：可以使用加法、乘法等不同的调制方式。3) n-gram窗口的大小：需要根据任务的特点进行选择。4) Auto Top-K的阈值：需要根据路由置信度的分布进行调整。

📊 实验亮点

在MMT-47基准测试中，LiME在保持甚至超越现有MoE-PEFT方法性能的同时，将可训练参数减少了高达4倍，并将训练速度提高了高达29%。这些结果表明，LiME是一种高效且有效的多模态多任务学习方法。

🎯 应用场景

LiME适用于各种多模态多任务学习场景，例如跨语言翻译、图像/视频理解、语音识别等。该方法可以有效降低模型参数量和计算成本，使其更容易部署在资源受限的设备上。未来，LiME可以进一步扩展到更大规模的模型和任务，并与其他参数高效微调技术相结合，以实现更好的性能。

📄 摘要（原文）

MoE-PEFT methods combine Mixture of Experts with parameter-efficient fine-tuning for multi-task adaptation, but require separate adapters per expert causing trainable parameters to scale linearly with expert count and limiting applicability to adapter-based architectures. We propose LiME (Lightweight Mixture of Experts), which achieves expert specialization through lightweight modulation rather than adapter replication. Instead of separate adapters, LiME uses a single shared PEFT module and modulates its output with lightweight expert vectors, reducing expert parameters while generalizing to any PEFT method. Notably, LiME introduces zero-parameter routing by leveraging existing frozen and adapted representations eliminating learned router parameters typically required per layer. Theoretically, we prove that (i) more experts preserve more task-relevant information and (ii) modulation approximates full expert-specific PEFT with bounded error. LiME further incorporates n-gram windowed routing and adaptive expert selection (Auto Top-K) based on routing confidence. Experiments on MMT-47, a multimodal multi-task benchmark with 47 tasks spanning text, image, and video, demonstrate that LiME achieves competitive or superior performance while using up to 4x fewer trainable parameters and up to 29% faster training compared to corresponding MoE-PEFT baselines.

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理