Positional Cognitive Specialization: Where Do LLMs Learn To Comprehend and Speak Your Language?
作者: Luis Frentzen Salim, Lun-Wei Ku, Hsing-Kuo Kenneth Pao
分类: cs.CL
发布日期: 2026-04-01
备注: Accepted to AAAI26 Main
💡 一句话要点
提出CogSym,通过认知分工视角实现LLM高效语言迁移与微调。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 低资源语言 语言迁移 认知分工 模型微调 层消融 CogSym
📋 核心要点
- 现有LLM语言迁移成本高昂且机制不透明,缺乏对模型如何学习新语言的深入理解。
- 论文提出CogSym方法,通过模拟认知分工,区分语言感知和生成模块,选择性微调特定层。
- 实验表明,仅微调25%的外层即可达到接近全量微调的效果,且与LoRA等方法性能相当。
📝 摘要(中文)
将大型语言模型(LLM)适配到新语言是一个昂贵且不透明的过程。理解语言模型如何获取新语言和多语言能力是实现高效适配的关键。以往关于多语言可解释性研究主要集中在已训练模型如何处理多语言指令,而忽略了模型在训练过程中获取新语言的机制。本文通过两种功能性认知分工:语言感知(输入理解)和语言生成(输出生成)的视角,研究了仅解码器Transformer的训练动态。通过对低资源语言的实验,我们展示了语言模型的不同区域如何通过从模型的输入和输出方向运行层消融扫描,从而产生感知和生产专业化。基于观察到的专业化模式,我们提出了一种层级启发式方法CogSym,通过专门微调一些早期和晚期层来实现有效的适配。我们表明,仅调整最外层25%的层即可实现与完全微调基线偏差在2-3%以内的下游任务性能。CogSym在性能上与LoRA等适配器方法保持一致,展示了超越完全微调的泛化能力。这些发现为更好地理解LLM如何学习新语言提供了见解,并推动了可访问和包容的语言建模。
🔬 方法详解
问题定义:现有的大型语言模型在学习新语言时,需要大量的计算资源和数据,且模型内部的学习机制不明确。如何高效地将LLM适配到低资源语言,并理解模型内部的语言学习过程,是本文要解决的核心问题。现有方法,如全量微调,成本高昂;而对模型学习过程的理解不足,限制了高效适配策略的探索。
核心思路:本文的核心思路是将语言学习过程类比于人类的认知过程,认为LLM在学习新语言时,也存在语言感知(输入理解)和语言生成(输出生成)两种认知分工。通过识别模型中负责不同认知功能的层,并针对性地进行微调,可以实现高效的语言迁移。这种思路借鉴了认知科学的理论,为理解和优化LLM的语言学习过程提供了新的视角。
技术框架:本文的技术框架主要包括以下几个步骤:1) 层消融实验:通过从输入和输出方向逐层消融模型,评估每一层对语言感知和生成能力的影响。2) 认知分工识别:基于层消融实验的结果,识别模型中负责语言感知和生成的层。3) CogSym微调策略:提出CogSym微调策略,仅微调模型中最外层的25%的层,这些层被认为主要负责语言感知和生成。4) 下游任务评估:在低资源语言的下游任务上评估CogSym的性能,并与全量微调和LoRA等方法进行比较。
关键创新:本文最重要的技术创新点在于提出了基于认知分工的LLM语言迁移方法。与以往的研究不同,本文关注模型内部的语言学习机制,并尝试通过模拟人类的认知过程来优化模型的学习效率。CogSym微调策略是一种轻量级的适配方法,可以在保证性能的同时,显著降低计算成本。
关键设计:CogSym的关键设计在于选择微调的层。通过层消融实验,作者发现模型的最外层(早期层和晚期层)对语言感知和生成能力的影响最大。因此,CogSym选择微调模型中最外层的25%的层。具体的比例选择可能需要根据不同的模型和任务进行调整。此外,本文还使用了标准的交叉熵损失函数进行微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CogSym方法仅微调25%的外层即可实现与全量微调基线偏差在2-3%以内的下游任务性能。在低资源语言翻译任务上,CogSym与LoRA等适配器方法性能相当,证明了其有效性和泛化能力。这些结果表明,通过认知分工视角可以实现LLM的高效语言迁移。
🎯 应用场景
该研究成果可应用于低资源语言的机器翻译、文本生成等任务,降低LLM在小语种上的部署成本。通过理解LLM的语言学习机制,可以开发更高效、更具包容性的语言模型,促进不同语言之间的交流与理解,并为个性化语言学习提供理论基础。
📄 摘要(原文)
Adapting large language models (LLMs) to new languages is an expensive and opaque process. Understanding how language models acquire new languages and multilingual abilities is key to achieve efficient adaptation. Prior work on multilingual interpretability research focuses primarily on how trained models process multilingual instructions, leaving unexplored the mechanisms through which they acquire new languages during training. We investigate these training dynamics on decoder-only transformers through the lens of two functional cognitive specializations: language perception (input comprehension) and production (output generation). Through experiments on low-resource languages, we demonstrate how perceptual and productive specialization emerges in different regions of a language model by running layer ablation sweeps from the model's input and output directions. Based on the observed specialization patterns, we propose CogSym, a layer-wise heuristic that enables effective adaptation by exclusively fine-tuning a few early and late layers. We show that tuning only the 25% outermost layers achieves downstream task performance within 2-3% deviation from the full fine-tuning baseline. CogSym yields consistent performance with adapter methods such as LoRA, showcasing generalization beyond full fine-tuning. These findings provide insights to better understand how LLMs learn new languages and push toward accessible and inclusive language modeling.