How Instruction-Tuning Imparts Length Control: A Cross-Lingual Mechanistic Analysis

📄 arXiv: 2509.02075v1 📥 PDF

作者: Elisabetta Rocchetti, Alfio Ferrara

分类: cs.CL, cs.AI

发布日期: 2025-09-02


💡 一句话要点

研究指令调优如何赋予大语言模型长度控制能力:一种跨语言的机制分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 指令调优 长度控制 机制分析 跨语言研究

📋 核心要点

  1. 大语言模型在生成特定长度的文本时面临挑战,现有方法难以精确控制输出长度。
  2. 该论文通过分析模型内部组件的贡献,揭示指令调优如何提升长度控制能力。
  3. 研究发现指令调优使模型更深层组件专门化,不同语言可能采用不同的补偿机制。

📝 摘要(中文)

大型语言模型(LLMs)在遵循显式长度约束方面仍然面临重大挑战,例如生成具有精确字数的文本。本研究旨在调查基础模型及其指令调优后的模型在英语和意大利语中进行长度控制文本生成时的差异。我们使用累积加权归因(Cumulative Weighted Attribution),一种源自直接Logit归因的指标,分析了性能和内部组件的贡献。研究结果表明,指令调优主要通过专门化模型更深层的组件来显著提高长度控制能力,尤其是在英语中,IT模型后期层的注意力头显示出越来越积极的贡献。在意大利语中,虽然注意力贡献有所减弱,但最后一层的MLP表现出更强的积极作用,表明存在一种补偿机制。这些结果表明,指令调优重新配置了后期层以适应任务,组件级别的策略可能会适应语言环境。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在文本生成过程中难以精确控制输出长度的问题。现有的基础模型在生成文本时,往往无法很好地满足用户对文本长度的明确要求,例如生成固定字数的摘要或回答。这限制了LLMs在实际应用中的可用性。

核心思路:论文的核心思路是通过对比分析基础模型和指令调优后的模型,研究指令调优如何改变模型的内部运作机制,从而赋予模型长度控制能力。通过分析模型内部组件(如注意力头和MLP层)的贡献,揭示哪些组件在长度控制中起关键作用,以及不同语言之间是否存在差异。

技术框架:论文采用了一种基于归因分析的方法,称为累积加权归因(Cumulative Weighted Attribution),来衡量模型内部组件对长度控制的贡献。该方法基于直接Logit归因,通过计算每个组件对最终输出Logit值的贡献,来评估其在长度控制中的作用。研究分别在英语和意大利语上进行了实验,对比了基础模型和指令调优后的模型。

关键创新:论文的关键创新在于使用累积加权归因方法,深入分析了指令调优如何改变LLMs的内部运作机制,从而赋予模型长度控制能力。此外,论文还发现不同语言可能采用不同的补偿机制来实现长度控制,例如英语更依赖注意力头,而意大利语更依赖MLP层。

关键设计:论文使用了Transformer架构的LLMs,并对比了基础模型和指令调优后的模型。累积加权归因方法通过计算每个注意力头和MLP层对最终输出Logit值的贡献,来评估其在长度控制中的作用。论文还分析了不同层之间的贡献差异,以及不同语言之间的差异。

📊 实验亮点

研究发现,指令调优显著提升了LLMs的长度控制能力。在英语中,指令调优后的模型后期层的注意力头显示出更积极的贡献。在意大利语中,虽然注意力贡献减弱,但最后一层的MLP表现出更强的积极作用,表明存在补偿机制。这些结果表明指令调优重新配置了后期层以适应任务。

🎯 应用场景

该研究成果可应用于需要精确长度控制的文本生成任务,例如自动摘要、机器翻译、内容创作等。通过理解指令调优如何影响模型的内部运作机制,可以更好地设计和优化LLMs,使其更好地满足用户的需求,提高文本生成质量和效率。未来的研究可以进一步探索如何利用这些发现来设计更有效的长度控制方法。

📄 摘要(原文)

Adhering to explicit length constraints, such as generating text with a precise word count, remains a significant challenge for Large Language Models (LLMs). This study aims at investigating the differences between foundation models and their instruction-tuned counterparts, on length-controlled text generation in English and Italian. We analyze both performance and internal component contributions using Cumulative Weighted Attribution, a metric derived from Direct Logit Attribution. Our findings reveal that instruction-tuning substantially improves length control, primarily by specializing components in deeper model layers. Specifically, attention heads in later layers of IT models show increasingly positive contributions, particularly in English. In Italian, while attention contributions are more attenuated, final-layer MLPs exhibit a stronger positive role, suggesting a compensatory mechanism. These results indicate that instruction-tuning reconfigures later layers for task adherence, with component-level strategies potentially adapting to linguistic context.