Tracing Multilingual Factual Knowledge Acquisition in Pretraining
作者: Yihong Liu, Mingyang Wang, Amir Hossein Kargaran, Felicia Körner, Ercong Nie, Barbara Plank, François Yvon, Hinrich Schütze
分类: cs.CL
发布日期: 2025-05-20 (更新: 2025-10-07)
备注: EMNLP Findings 2025
🔗 代码/项目: GITHUB
💡 一句话要点
追踪多语言事实知识获取以提升语言模型的跨语言一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 事实回忆 跨语言一致性 预训练 知识迁移 语言模型
📋 核心要点
- 现有研究主要关注最终模型的性能,缺乏对预训练过程中事实回忆和跨语言一致性的动态分析。
- 论文通过追踪OLMo-7B模型的预训练过程,揭示了事实回忆和跨语言一致性随时间演变的规律。
- 研究表明,事实频率对回忆准确性有显著影响,并且低频事实也能通过跨语言迁移被正确回忆。
📝 摘要(中文)
大型语言模型(LLMs)能够回忆其预训练数据中的多语言事实知识。然而,大多数研究仅评估最终模型,导致事实回忆和跨语言一致性的演变过程未被充分探索。本研究追踪了事实回忆和跨语言一致性在预训练过程中的演变,重点以OLMo-7B为案例。研究发现,随着时间推移,大多数语言的准确性和一致性均有所提升,这一改善主要受到预训练语料中事实频率的驱动。尽管某些低频事实在非英语语言中仍能被正确回忆,但这些实例主要得益于其英语对应物的跨语言迁移。我们指出了多语言事实知识获取的两条不同路径:频率驱动学习和跨语言迁移。
🔬 方法详解
问题定义:本论文旨在解决多语言模型在预训练过程中事实回忆和跨语言一致性演变的研究空白。现有方法多集中于最终模型的评估,缺乏对模型学习过程的深入分析。
核心思路:通过对OLMo-7B模型的预训练过程进行追踪,分析事实回忆和跨语言一致性的演变,揭示频率驱动学习和跨语言迁移的作用机制。
技术框架:研究采用了对比实验的方法,分析不同语言的事实回忆情况,重点关注事实频率与回忆准确性之间的关系。主要模块包括数据收集、模型训练、性能评估和结果分析。
关键创新:论文的创新点在于首次系统性地追踪了多语言事实知识的获取过程,提出了频率驱动学习和跨语言迁移的双重路径,丰富了对多语言模型学习机制的理解。
关键设计:在实验中,模型的训练数据来源于多语言语料库,采用了频率统计分析方法来评估事实的回忆情况,损失函数设计上考虑了跨语言一致性,以促进模型在不同语言间的知识迁移。
📊 实验亮点
实验结果显示,随着预训练的进行,大多数语言的事实回忆准确性和跨语言一致性均显著提升。具体而言,频率较高的事实在回忆时表现出更高的准确性,且低频事实在非英语语言中的回忆也得到了跨语言迁移的支持,验证了模型在早期阶段的学习能力。
🎯 应用场景
该研究为多语言模型的开发提供了重要的理论基础和实践指导,尤其在跨语言信息检索、翻译系统和多语言对话系统等领域具有广泛的应用潜力。通过提升模型的事实回忆能力和跨语言一致性,可以显著提高多语言处理任务的效果和用户体验。
📄 摘要(原文)
Large Language Models (LLMs) are capable of recalling multilingual factual knowledge present in their pretraining data. However, most studies evaluate only the final model, leaving the development of factual recall and crosslingual consistency throughout pretraining largely unexplored. In this work, we trace how factual recall and crosslingual consistency evolve during pretraining, focusing on OLMo-7B as a case study. We find that both accuracy and consistency improve over time for most languages. We show that this improvement is primarily driven by the fact frequency in the pretraining corpus: more frequent facts are more likely to be recalled correctly, regardless of language. Yet, some low-frequency facts in non-English languages can still be correctly recalled. Our analysis reveals that these instances largely benefit from crosslingual transfer of their English counterparts -- an effect that emerges predominantly in the early stages of pretraining. We pinpoint two distinct pathways through which multilingual factual knowledge acquisition occurs: (1) frequency-driven learning, which is dominant and language-agnostic, and (2) crosslingual transfer, which is limited in scale and typically constrained to relation types involving named entities. We release our code and data to facilitate further research at https://github.com/cisnlp/multilingual-fact-tracing.