IPA: An Information-Reconstructive Input Projection Framework for Efficient Foundation Model Adaptation

作者: Yuan Yin, Shashanka Venkataramanan, Tuan-Hung Vu, Andrei Bursuc, Matthieu Cord

分类: cs.LG, cs.AI

发布日期: 2025-09-04 (更新: 2025-12-05)

备注: Accepted to TMLR

🔗 代码/项目: GITHUB

💡 一句话要点

提出IPA：一种信息重构的输入投影框架，用于高效地微调预训练模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 预训练模型 特征感知投影 信息重构 低秩适配

📋 核心要点

LoRA等PEFT方法的随机下投影损失信息，限制了模型性能。
IPA通过特征感知的投影，在低维空间重构原始输入，保留关键信息。
实验表明，IPA在语言和视觉任务上均优于LoRA，参数效率更高。

📝 摘要（中文）

参数高效微调（PEFT）方法，如LoRA，通过将低秩更新注入到预训练权重中来降低适配成本。然而，LoRA的下投影是随机初始化且与数据无关的，这会丢弃潜在的有用信息。先前的分析表明，这种投影在训练过程中变化很小，而上投影则承担了大部分的适配工作，使得随机输入压缩成为性能瓶颈。我们提出了IPA，一个特征感知的投影框架，它明确地旨在在缩减的隐藏空间内重构原始输入。在线性情况下，我们使用近似于主成分分析的算法来实例化IPA，从而能够以可忽略的推理开销进行高效的投影器预训练。在语言和视觉基准测试中，IPA始终优于LoRA和DoRA，在常识推理方面平均提高了1.5个百分点，在VTAB-1k上提高了2.3个百分点，并且在投影冻结时，以大约一半的可训练参数匹配了完整LoRA的性能。代码可在https://github.com/valeoai/peft-ipa 获取。

🔬 方法详解

问题定义：论文旨在解决参数高效微调（PEFT）方法中，如LoRA，随机初始化的下投影矩阵导致的信息损失问题。LoRA的下投影矩阵是随机的，没有考虑输入特征的分布，这可能导致重要的信息在降维过程中被丢弃，从而限制了模型的性能。

核心思路：论文的核心思路是设计一个特征感知的投影框架，该框架能够显式地学习一个投影矩阵，使得在降维后的隐藏空间中能够尽可能地重构原始输入。通过这种方式，可以保留输入特征中的关键信息，从而提高微调后的模型性能。

技术框架：IPA框架主要包含一个输入投影模块和一个重构模块。输入投影模块负责将原始输入投影到低维隐藏空间，该模块使用可学习的投影矩阵。重构模块则尝试从低维隐藏空间重构原始输入。通过最小化重构误差，可以学习到能够保留关键信息的投影矩阵。在线性情况下，可以使用主成分分析（PCA）等算法来近似计算最优的投影矩阵。

关键创新：IPA的关键创新在于其特征感知的投影方式。与LoRA等方法随机初始化的投影矩阵不同，IPA的投影矩阵是通过学习得到的，能够根据输入特征的分布自适应地调整。这种特征感知的投影方式能够更好地保留输入特征中的关键信息，从而提高微调后的模型性能。

关键设计：IPA的关键设计包括：1) 使用重构损失来学习投影矩阵，确保在低维空间中能够尽可能地重构原始输入；2) 在线性情况下，使用PCA等算法来高效地计算投影矩阵，降低计算复杂度；3) 可以选择冻结投影矩阵，进一步降低可训练参数的数量，提高参数效率。

📊 实验亮点

实验结果表明，IPA在常识推理任务上比LoRA平均提高了1.5个百分点，在VTAB-1k数据集上提高了2.3个百分点。此外，当IPA的投影矩阵被冻结时，它仍然能够以大约一半的可训练参数匹配完整LoRA的性能，展示了其卓越的参数效率。

🎯 应用场景

IPA框架可应用于各种需要高效微调预训练模型的场景，例如自然语言处理、计算机视觉等。该方法能够以较少的参数实现与全量微调相当甚至更好的性能，降低了计算资源的需求，使得在资源受限的环境下也能高效地进行模型适配。未来，IPA可以进一步扩展到其他模态的数据，例如音频、视频等，实现跨模态的高效微调。

📄 摘要（原文）

Parameter-efficient fine-tuning (PEFT) methods, such as LoRA, reduce adaptation cost by injecting low-rank updates into pretrained weights. However, LoRA's down-projection is randomly initialized and data-agnostic, discarding potentially useful information. Prior analyses show that this projection changes little during training, while the up-projection carries most of the adaptation, making the random input compression a performance bottleneck. We propose IPA, a feature-aware projection framework that explicitly aims to reconstruct the original input within a reduced hidden space. In the linear case, we instantiate IPA with algorithms approximating top principal components, enabling efficient projector pretraining with negligible inference overhead. Across language and vision benchmarks, IPA consistently improves over LoRA and DoRA, achieving on average 1.5 points higher accuracy on commonsense reasoning and 2.3 points on VTAB-1k, while matching full LoRA performance with roughly half the trainable parameters when the projection is frozen. Code available at https://github.com/valeoai/peft-ipa .

IPA: An Information-Reconstructive Input Projection Framework for Efficient Foundation Model Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册