Activation-Guided Consensus Merging for Large Language Models

作者: Yuxuan Yao, Shuqi Liu, Zehua Liu, Qintong Li, Mingyang Liu, Xiongwei Han, Zhijiang Guo, Han Wu, Linqi Song

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-11-14)

💡 一句话要点

提出激活引导共识合并以提升大语言模型的效率与稳定性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型合并 激活引导 互信息 推理能力 效率提升 自然语言处理

📋 核心要点

现有的训练和提示方法在效率和稳定性方面存在显著挑战，无法有效整合不同大语言模型的能力。
本文提出的激活引导共识合并（ACM）框架，通过激活之间的互信息来确定层特定的合并系数，避免了传统方法的局限。
实验结果显示，ACM在Qwen-7B模型中实现了55.3%的响应长度减少，同时推理准确性提高了1.3个百分点，表现优于所有基线方法。

📝 摘要（中文）

近年来，研究者越来越关注将系统2的推理能力与系统1的效率相结合。现有的基于训练和提示的方法在效率和稳定性方面面临重大挑战，而模型合并作为一种有前景的策略，可以将不同大语言模型的多样化能力整合为一个统一的模型。然而，传统的模型合并方法往往假设各层的重要性均匀，忽视了神经元组件固有的功能异质性。为了解决这一局限性，本文提出了激活引导共识合并（ACM），这是一种即插即用的合并框架，通过预训练和微调模型激活之间的互信息来确定层特定的合并系数。ACM有效地保留了任务特定的能力，而无需梯度计算或额外训练。大量实验表明，ACM在长短合并任务中始终优于所有基线方法。

🔬 方法详解

问题定义：本文旨在解决现有模型合并方法在层重要性假设上的不足，尤其是忽视了神经网络各层功能的异质性，导致合并效果不佳。

核心思路：提出激活引导共识合并（ACM）框架，通过分析预训练与微调模型激活之间的互信息，动态确定每层的合并系数，从而更有效地整合模型能力。

技术框架：ACM框架包括数据预处理、激活提取、互信息计算和层特定合并系数生成等主要模块，形成一个完整的合并流程。

关键创新：ACM的核心创新在于其层特定的合并系数计算方法，突破了传统方法的均匀假设，能够更好地保留任务特定能力。

关键设计：在设计中，ACM不需要额外的梯度计算或训练，利用互信息作为合并系数的依据，确保了合并过程的高效性和稳定性。具体参数设置和损失函数设计在实验中进行了详细验证。

📊 实验亮点

实验结果表明，采用ACM的TIES-Merging在Qwen-7B模型中实现了55.3%的响应长度减少，同时推理准确性提高了1.3个百分点，显著优于所有基线方法，展示了ACM的有效性和优势。

🎯 应用场景

该研究的潜在应用场景包括自然语言处理、对话系统和文本生成等领域，能够有效提升大语言模型的性能和响应效率。未来，ACM框架有望在多模态学习和跨领域模型合并中发挥更大作用，推动智能系统的发展。

📄 摘要（原文）

Recent research has increasingly focused on reconciling the reasoning capabilities of System 2 with the efficiency of System 1. While existing training-based and prompt-based approaches face significant challenges in terms of efficiency and stability, model merging emerges as a promising strategy to integrate the diverse capabilities of different Large Language Models (LLMs) into a unified model. However, conventional model merging methods often assume uniform importance across layers, overlooking the functional heterogeneity inherent in neural components. To address this limitation, we propose \textbf{A}ctivation-Guided \textbf{C}onsensus \textbf{M}erging (\textbf{ACM}), a plug-and-play merging framework that determines layer-specific merging coefficients based on mutual information between activations of pre-trained and fine-tuned models. ACM effectively preserves task-specific capabilities without requiring gradient computations or additional training. Extensive experiments on Long-to-Short (L2S) and general merging tasks demonstrate that ACM consistently outperforms all baseline methods. For instance, in the case of Qwen-7B models, TIES-Merging equipped with ACM achieves a \textbf{55.3\%} reduction in response length while simultaneously improving reasoning accuracy by \textbf{1.3} points.

Activation-Guided Consensus Merging for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册