Domain-Adaptive Model Merging across Disconnected Modes

📄 arXiv: 2603.05957v1 📥 PDF

作者: Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu

分类: cs.DC, cs.AI

发布日期: 2026-03-06

备注: 5 pages, 1 figure, 3 tables; Accepted by ICASSP 2026


💡 一句话要点

提出DMM框架,解决异构域模型在数据隔离下的联邦知识融合问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型融合 联邦学习 知识蒸馏 领域自适应 数据隐私

📋 核心要点

  1. 现有跨域学习方法在数据隔离场景下受限,无法训练单一综合模型,模型融合提供了一种无需数据共享的替代方案。
  2. DMM框架通过合并相似模型、合成伪数据和知识蒸馏,将异构模型的知识迁移到统一模型,实现高效的模型融合。
  3. 实验结果表明,DMM在单模态和多模态任务上均取得了优于现有模型融合方法的最先进性能。

📝 摘要(中文)

本文提出了一种名为DMM的数据无关模型融合框架,旨在解决因隐私或异构性导致数据无法集中时跨域学习的挑战。DMM通过将多个专门模型的知识整合到一个模型中,避免了数据共享并降低了重新训练的成本。DMM包含三个步骤:首先,独立训练特定领域的模型;其次,使用标准技术合并具有高相似度的模型以确保稳定性;最后,通过从归一化统计量中合成伪数据,并将来自不同模型的知识提炼到合并后的模型中,从而进行轻量级的细化。这种方法在保持稳定性的同时,保留了罕见但至关重要的知识。在单模态和多模态基准上的大量实验表明,DMM优于现有的模型融合方法,达到了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决数据孤岛场景下的模型融合问题。由于数据隐私或异构性,不同领域的数据无法集中,导致无法训练一个统一的、性能良好的模型。现有的模型融合方法在处理高度异构的模型时,容易出现性能下降或不稳定等问题。

核心思路:DMM的核心思路是分而治之,先合并相似的模型以保证融合的稳定性,再利用知识蒸馏将差异较大的模型的知识迁移到已合并的模型中。通过合成伪数据,DMM可以在不访问真实数据的情况下,指导知识蒸馏过程,从而保留关键信息。

技术框架:DMM框架包含三个主要阶段:1) 领域特定模型训练:在各自的数据集上独立训练各个领域的模型。2) 相似模型合并:使用标准模型合并技术(如平均权重)合并相似度高的模型,以确保融合过程的稳定性。3) 知识蒸馏与模型精炼:利用从归一化统计量中生成的伪数据,将剩余的、差异较大的模型的知识蒸馏到已合并的模型中,从而提升模型的泛化能力。

关键创新:DMM的关键创新在于提出了一种数据无关的知识蒸馏方法,该方法利用从模型归一化统计量中提取的信息生成伪数据,从而可以在不访问真实数据的情况下进行知识迁移。这种方法特别适用于数据隐私敏感或数据异构性高的场景。

关键设计:DMM的关键设计包括:1) 相似度度量:用于判断哪些模型可以安全合并。具体采用何种度量方式未知。2) 伪数据生成:从模型的归一化统计量(如BatchNorm层的均值和方差)中提取信息,并生成具有代表性的伪数据。3) 知识蒸馏损失函数:用于指导知识从原始模型到合并模型的迁移。具体损失函数形式未知。

🖼️ 关键图片

fig_0

📊 实验亮点

DMM在多个单模态和多模态基准数据集上进行了评估,实验结果表明DMM显著优于现有的模型融合方法。具体性能提升幅度未知,但论文强调DMM达到了state-of-the-art的水平。实验证明了DMM在处理异构模型融合问题上的有效性。

🎯 应用场景

DMM适用于联邦学习、多任务学习、以及模型压缩等场景。例如,在医疗领域,不同医院的模型可以在不共享患者数据的情况下进行融合,从而提升诊断准确率。在自动驾驶领域,不同地区的模型可以融合以适应不同的驾驶环境。此外,DMM还可以用于将多个小型模型合并为一个更强大的模型,从而降低模型部署的成本。

📄 摘要(原文)

Learning across domains is challenging when data cannot be centralized due to privacy or heterogeneity, which limits the ability to train a single comprehensive model. Model merging provides an appealing alternative by consolidating knowledge from multiple specialized models into one, avoiding data sharing and reducing retraining cost. In this work, we present DMM, a data-free model merging framework designed to handle highly divergent models. DMM proceeds in three steps. First, domain-specific models are trained independently. Second, models with high similarity are merged using standard techniques to ensure stability. Third, we synthesize pseudo-data from normalization statistics and distill knowledge from divergent models into the merged model through a lightweight refinement guided by these samples. This approach preserves rare but critical knowledge while maintaining stability. Extensive experiments on unimodal and multimodal benchmarks show that DMM achieves state-of-the-art performance over existing merging methods.