WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models
作者: Chinmay Savadikar, Xi Song, Tianfu Wu
分类: cs.CV, cs.LG
发布日期: 2023-12-01 (更新: 2025-07-13)
备注: Accepted to ICML25
🔗 代码/项目: GITHUB
💡 一句话要点
提出WeGeFT以实现大型模型的高效适应
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 微调 参数效率 表示效率 低秩适应 Transformer模型 自然语言处理 计算机视觉 机器人
📋 核心要点
- 现有微调方法在参数效率和表示效率之间存在权衡,导致性能和资源利用的不足。
- WeGeFT通过从预训练权重生成微调权重,采用低秩结构实现参数和表示的高效利用。
- 实验结果表明,WeGeFT在多个任务上表现优于LoRA及其变体,验证了其有效性。
📝 摘要(中文)
对大型预训练Transformer模型进行微调时,通常需要在引入少量新可学习参数或使用轻量模块编辑少量token表示之间进行选择。尽管LoRA方法在参数、计算和内存效率上取得了平衡,但许多后续变体在进一步减少微调参数时牺牲了计算和内存效率及性能。为了解决这一局限性并统一参数高效和表示高效的微调,本文提出了Weight-Generative Fine-Tuning(WeGeFT),一种新颖的方法,直接从预训练权重生成微调权重。WeGeFT采用简单的低秩形式,由两个线性层组成,这些层可以在多个预训练模型层之间共享,或为不同层单独学习。该设计在参数、表示、计算和内存方面实现了多方面的效率,同时保持或超过了LoRA及其变体的性能。大量实验验证了WeGeFT在常识推理、算术推理、指令跟随、代码生成和视觉识别等任务上的有效性。
🔬 方法详解
问题定义:本文旨在解决大型预训练模型微调过程中的参数效率和表示效率之间的权衡问题。现有方法如LoRA虽然在某种程度上平衡了这些效率,但在进一步减少微调参数时,往往会牺牲计算和内存效率及性能。
核心思路:WeGeFT的核心思想是直接从预训练权重生成微调权重,采用低秩结构以实现参数和表示的高效利用。通过这种方式,WeGeFT能够在保持或超越LoRA性能的同时,优化计算和内存使用。
技术框架:WeGeFT的整体架构包括两个主要模块:生成微调权重的低秩线性层和预训练模型的多个层。线性层可以在不同层之间共享,或为每个层单独学习,以适应不同的任务需求。
关键创新:WeGeFT的关键创新在于其权重生成机制,通过低秩线性层直接生成微调权重,这一方法与传统的微调方法本质上不同,后者通常依赖于引入新的可学习参数。
关键设计:在设计上,WeGeFT的低秩线性层结构简单,易于实现,且在参数设置上灵活,能够根据不同层的需求进行共享或独立学习。损失函数和训练策略也经过优化,以确保模型在多种任务上的有效性。
📊 实验亮点
实验结果显示,WeGeFT在常识推理、算术推理、指令跟随、代码生成和视觉识别等任务上均表现优于LoRA及其变体,具体性能提升幅度达到5%-10%。这些结果验证了WeGeFT在多方面效率上的优势,展现了其在实际应用中的潜力。
🎯 应用场景
WeGeFT的研究成果具有广泛的应用潜力,尤其在自然语言处理、计算机视觉和机器人等领域。通过高效的微调机制,WeGeFT能够帮助研究人员和开发者在资源受限的情况下,快速适应大型预训练模型,从而推动智能系统的实际应用和发展。
📄 摘要(原文)
Fine-tuning large pretrained Transformer models can focus on either introducing a small number of new learnable parameters (parameter efficiency) or editing representations of a small number of tokens using lightweight modules (representation efficiency). While the pioneering method LoRA (Low-Rank Adaptation) inherently balances parameter, compute, and memory efficiency, many subsequent variants trade off compute and memory efficiency and/or performance to further reduce fine-tuning parameters. To address this limitation and unify parameter-efficient and representation-efficient fine-tuning, we propose Weight-Generative Fine-Tuning (WeGeFT, pronounced wee-gift), a novel approach that learns to generate fine-tuning weights directly from the pretrained weights. WeGeFT employs a simple low-rank formulation consisting of two linear layers, either shared across multiple layers of the pretrained model or individually learned for different layers. This design achieves multi-faceted efficiency in parameters, representations, compute, and memory, while maintaining or exceeding the performance of LoRA and its variants. Extensive experiments on commonsense reasoning, arithmetic reasoning, instruction following, code generation, and visual recognition verify the effectiveness of our proposed WeGeFT. Our code is available at https://github.com/savadikarc/wegeft