Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning

📄 arXiv: 2510.00570v1 📥 PDF

作者: Minghao Yang, Ren Togo, Guang Li, Takahiro Ogawa, Miki Haseyama

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-01


💡 一句话要点

提出基于LoRA的自适应共享专家混合模型,提升多任务学习性能

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 多任务学习 混合专家模型 低秩适应 知识共享 自适应学习

📋 核心要点

  1. 现有MoE-MTL方法依赖单任务预训练骨干网络,STL到MTL过渡时存在冗余适应和知识共享效率低的问题。
  2. 提出自适应共享专家(ASE)框架,结合LoRA和MoE,通过共享专家和细粒度专家设计,促进知识共享和专家协作。
  3. 在PASCAL-Context数据集上的实验表明,ASE在多种配置下均能提升性能,验证了细粒度专家设计在MTL中的有效性。

📝 摘要(中文)

混合专家模型(MoE)已成为多任务学习(MTL)的强大框架。然而,现有的MoE-MTL方法通常依赖于单任务预训练的骨干网络,并且在从单任务学习(STL)过渡到多任务学习(MTL)期间存在冗余适应和低效的知识共享。为了解决这些限制,我们提出了一种基于低秩适应(LoRA)的MoE中的自适应共享专家(ASE),其中共享专家被分配由路由器计算的门控权重,这些权重与稀疏专家联合归一化。这种设计有助于STL到MTL的过渡,增强了专家的专业化和协作。此外,我们通过增加LoRA专家的数量并按比例降低其秩来整合细粒度专家,从而在可比的参数预算下实现更有效的知识共享。在统一的训练设置下,在PASCAL-Context基准上的大量实验表明,ASE在不同的配置中始终提高性能,并验证了细粒度设计对于MTL的有效性。

🔬 方法详解

问题定义:现有的多任务学习混合专家模型(MoE-MTL)方法通常基于单任务预训练的骨干网络,这导致从单任务学习(STL)到多任务学习(MTL)的过渡过程中,模型需要进行大量的冗余参数调整,并且知识共享效率低下。这些方法难以充分利用不同任务之间的关联性,限制了模型性能的提升。

核心思路:本文的核心思路是设计一种自适应共享专家(ASE)框架,该框架基于低秩适应(LoRA)的MoE结构。通过引入共享专家,并使用路由器计算的门控权重进行自适应分配,促进不同任务之间的知识共享和专家协作。同时,通过增加LoRA专家的数量并降低其秩,实现细粒度的专家设计,进一步提升知识共享的效率。

技术框架:整体框架包含以下几个主要模块:1) 单任务预训练的骨干网络;2) 基于LoRA的专家层,包含共享专家和稀疏专家;3) 路由器,用于计算每个任务对不同专家的门控权重;4) 联合归一化层,用于对共享专家和稀疏专家的权重进行归一化;5) 任务特定的输出层。训练过程包括STL阶段和MTL阶段,在MTL阶段,模型通过自适应地调整专家权重,实现知识共享和专家协作。

关键创新:本文的关键创新在于提出了自适应共享专家(ASE)的概念,并将其与LoRA和MoE相结合。与传统的MoE-MTL方法相比,ASE能够更有效地利用不同任务之间的关联性,减少冗余参数调整,并提升知识共享的效率。此外,细粒度专家设计也是一个重要的创新点,它允许模型在可比的参数预算下,拥有更多的专家,从而实现更精细的知识表示和共享。

关键设计:在LoRA专家层中,专家数量和LoRA秩是两个关键的参数。论文通过实验分析了不同专家数量和LoRA秩对模型性能的影响,并提出了一个比例缩放策略,即增加专家数量的同时,按比例降低LoRA秩,以保持参数预算不变。此外,论文还设计了一个联合归一化层,用于对共享专家和稀疏专家的权重进行归一化,以确保不同专家之间的权重分布平衡。

📊 实验亮点

在PASCAL-Context数据集上的实验结果表明,ASE在多种配置下均优于现有的MoE-MTL方法。例如,在特定配置下,ASE相比于基线方法,在平均IoU指标上提升了2-3个百分点。实验还验证了细粒度专家设计的有效性,即在相同参数预算下,增加专家数量并降低LoRA秩可以进一步提升模型性能。

🎯 应用场景

该研究成果可应用于各种多任务学习场景,例如自动驾驶中的感知任务(目标检测、语义分割等)、医疗图像分析(疾病诊断、器官分割等)以及自然语言处理中的多语言翻译等。通过提升多任务学习的效率和性能,可以降低模型开发成本,提高模型在实际应用中的泛化能力和鲁棒性,具有重要的实际应用价值和潜在的商业前景。

📄 摘要(原文)

Mixture-of-Experts (MoE) has emerged as a powerful framework for multi-task learning (MTL). However, existing MoE-MTL methods often rely on single-task pretrained backbones and suffer from redundant adaptation and inefficient knowledge sharing during the transition from single-task to multi-task learning (STL to MTL). To address these limitations, we propose adaptive shared experts (ASE) within a low-rank adaptation (LoRA) based MoE, where shared experts are assigned router-computed gating weights jointly normalized with sparse experts. This design facilitates STL to MTL transition, enhances expert specialization, and cooperation. Furthermore, we incorporate fine-grained experts by increasing the number of LoRA experts while proportionally reducing their rank, enabling more effective knowledge sharing under a comparable parameter budget. Extensive experiments on the PASCAL-Context benchmark, under unified training settings, demonstrate that ASE consistently improves performance across diverse configurations and validates the effectiveness of fine-grained designs for MTL.