Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning

作者: Minghao Yang, Ren Togo, Guang Li, Takahiro Ogawa, Miki Haseyama

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-01

💡 一句话要点

提出基于LoRA的自适应共享专家混合模型，提升多任务学习性能

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 多任务学习 混合专家模型 低秩适应 知识共享 自适应学习

📋 核心要点

现有MoE-MTL方法依赖单任务预训练骨干网络，STL到MTL过渡时存在冗余适应和知识共享效率低的问题。
提出自适应共享专家(ASE)框架，结合LoRA和MoE，通过共享专家和细粒度专家设计，促进知识共享和专家协作。
在PASCAL-Context数据集上的实验表明，ASE在多种配置下均能提升性能，验证了细粒度专家设计在MTL中的有效性。

📝 摘要（中文）

混合专家模型(MoE)已成为多任务学习(MTL)的强大框架。然而，现有的MoE-MTL方法通常依赖于单任务预训练的骨干网络，并且在从单任务学习(STL)过渡到多任务学习(MTL)期间存在冗余适应和低效的知识共享。为了解决这些限制，我们提出了一种基于低秩适应(LoRA)的MoE中的自适应共享专家(ASE)，其中共享专家被分配由路由器计算的门控权重，这些权重与稀疏专家联合归一化。这种设计有助于STL到MTL的过渡，增强了专家的专业化和协作。此外，我们通过增加LoRA专家的数量并按比例降低其秩来整合细粒度专家，从而在可比的参数预算下实现更有效的知识共享。在统一的训练设置下，在PASCAL-Context基准上的大量实验表明，ASE在不同的配置中始终提高性能，并验证了细粒度设计对于MTL的有效性。

🔬 方法详解

问题定义：现有的多任务学习混合专家模型(MoE-MTL)方法通常基于单任务预训练的骨干网络，这导致从单任务学习(STL)到多任务学习(MTL)的过渡过程中，模型需要进行大量的冗余参数调整，并且知识共享效率低下。这些方法难以充分利用不同任务之间的关联性，限制了模型性能的提升。

核心思路：本文的核心思路是设计一种自适应共享专家(ASE)框架，该框架基于低秩适应(LoRA)的MoE结构。通过引入共享专家，并使用路由器计算的门控权重进行自适应分配，促进不同任务之间的知识共享和专家协作。同时，通过增加LoRA专家的数量并降低其秩，实现细粒度的专家设计，进一步提升知识共享的效率。

技术框架：整体框架包含以下几个主要模块：1) 单任务预训练的骨干网络；2) 基于LoRA的专家层，包含共享专家和稀疏专家；3) 路由器，用于计算每个任务对不同专家的门控权重；4) 联合归一化层，用于对共享专家和稀疏专家的权重进行归一化；5) 任务特定的输出层。训练过程包括STL阶段和MTL阶段，在MTL阶段，模型通过自适应地调整专家权重，实现知识共享和专家协作。

关键创新：本文的关键创新在于提出了自适应共享专家(ASE)的概念，并将其与LoRA和MoE相结合。与传统的MoE-MTL方法相比，ASE能够更有效地利用不同任务之间的关联性，减少冗余参数调整，并提升知识共享的效率。此外，细粒度专家设计也是一个重要的创新点，它允许模型在可比的参数预算下，拥有更多的专家，从而实现更精细的知识表示和共享。

关键设计：在LoRA专家层中，专家数量和LoRA秩是两个关键的参数。论文通过实验分析了不同专家数量和LoRA秩对模型性能的影响，并提出了一个比例缩放策略，即增加专家数量的同时，按比例降低LoRA秩，以保持参数预算不变。此外，论文还设计了一个联合归一化层，用于对共享专家和稀疏专家的权重进行归一化，以确保不同专家之间的权重分布平衡。

📊 实验亮点

在PASCAL-Context数据集上的实验结果表明，ASE在多种配置下均优于现有的MoE-MTL方法。例如，在特定配置下，ASE相比于基线方法，在平均IoU指标上提升了2-3个百分点。实验还验证了细粒度专家设计的有效性，即在相同参数预算下，增加专家数量并降低LoRA秩可以进一步提升模型性能。

🎯 应用场景

该研究成果可应用于各种多任务学习场景，例如自动驾驶中的感知任务（目标检测、语义分割等）、医疗图像分析（疾病诊断、器官分割等）以及自然语言处理中的多语言翻译等。通过提升多任务学习的效率和性能，可以降低模型开发成本，提高模型在实际应用中的泛化能力和鲁棒性，具有重要的实际应用价值和潜在的商业前景。

📄 摘要（原文）

Mixture-of-Experts (MoE) has emerged as a powerful framework for multi-task learning (MTL). However, existing MoE-MTL methods often rely on single-task pretrained backbones and suffer from redundant adaptation and inefficient knowledge sharing during the transition from single-task to multi-task learning (STL to MTL). To address these limitations, we propose adaptive shared experts (ASE) within a low-rank adaptation (LoRA) based MoE, where shared experts are assigned router-computed gating weights jointly normalized with sparse experts. This design facilitates STL to MTL transition, enhances expert specialization, and cooperation. Furthermore, we incorporate fine-grained experts by increasing the number of LoRA experts while proportionally reducing their rank, enabling more effective knowledge sharing under a comparable parameter budget. Extensive experiments on the PASCAL-Context benchmark, under unified training settings, demonstrate that ASE consistently improves performance across diverse configurations and validates the effectiveness of fine-grained designs for MTL.

Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册