Beyond Repetition: Text Simplification and Curriculum Learning for Data-Constrained Pretraining

📄 arXiv: 2509.24356v1 📥 PDF

作者: Matthew Theodore Roque, Dan John Velasco

分类: cs.CL, cs.AI

发布日期: 2025-09-29

备注: To be published in BabyLM Workshop at EMNLP 2025


💡 一句话要点

针对数据受限的预训练,提出基于文本简化和课程学习的优化方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本简化 课程学习 预训练 数据增强 语言模型

📋 核心要点

  1. 现有语言模型预训练研究主要集中于大数据集,忽略了数据受限场景下的优化问题。
  2. 该论文提出利用文本简化和课程学习策略,优化数据受限场景下的预训练过程。
  3. 实验结果表明,添加简化数据并采用合适的复杂度排序策略,能有效提升模型性能。

📝 摘要(中文)

大多数关于语言模型预训练的研究都集中在大型数据集上,而数据受限环境下的优化问题仍未得到充分探索。在这样的环境中,训练数据顺序以及包含相同文本的不同版本的影响仍然未知。本文通过研究预训练中的课程学习来解决这个问题,重点关注文本复杂度的排序和通过简化进行的数据增强。我们探究:(1)简化文本是否比重用原始数据更能提高表示质量?(2)按文本复杂度排序数据是否能产生更好的表示?为了回答这些问题,我们构建了一对并行语料库,其中人工编写的段落与LLM简化的变体对齐,并测试了四种数据调度方案:重复暴露、低到高复杂度、高到低复杂度以及交错。我们通过微调从样本效率的角度分析模型的表示质量,以及其在语言知识、实体跟踪、世界知识和常识推理方面的零样本性能。我们的研究结果表明,与重复暴露基线相比,添加简化数据可以提高微调和零样本性能:较小的模型受益于低到高复杂度,而较大的模型在交错排序下表现更好。

🔬 方法详解

问题定义:论文旨在解决数据量有限情况下,如何有效进行语言模型预训练的问题。现有方法在数据受限场景下,通常采用重复使用数据的方式,但这种方法可能导致过拟合,且未充分利用数据中的信息。此外,不同复杂度的文本对模型学习的影响也未被充分研究。

核心思路:论文的核心思路是利用文本简化技术生成原始文本的简化版本,并结合课程学习策略,控制训练数据的复杂度顺序。通过引入简化文本,增加数据的多样性,避免模型过拟合。同时,通过课程学习,让模型先学习简单的文本,再逐步学习复杂的文本,从而提高模型的学习效率和泛化能力。

技术框架:整体框架包括数据准备、模型预训练和性能评估三个阶段。数据准备阶段,构建包含原始文本和LLM简化文本的并行语料库。模型预训练阶段,采用不同的数据调度策略(重复暴露、低到高复杂度、高到低复杂度、交错)训练语言模型。性能评估阶段,通过微调和零样本测试,评估模型的表示质量和泛化能力。

关键创新:论文的关键创新在于将文本简化和课程学习相结合,应用于数据受限的预训练场景。与传统的重复数据方法相比,该方法能够更有效地利用有限的数据,提高模型的性能。此外,论文还系统地研究了不同复杂度排序策略对模型学习的影响,为数据受限场景下的预训练提供了新的思路。

关键设计:论文的关键设计包括:1) 使用LLM进行文本简化,生成高质量的简化文本;2) 设计四种不同的数据调度策略,探索不同复杂度排序方式的影响;3) 采用微调和零样本测试两种评估方式,全面评估模型的性能;4) 针对不同规模的模型,探索最佳的数据调度策略。

📊 实验亮点

实验结果表明,与重复暴露基线相比,添加简化数据可以提高微调和零样本性能。具体而言,较小的模型受益于低到高复杂度的数据调度策略,而较大的模型在交错排序下表现更好。这表明,针对不同规模的模型,需要采用不同的数据调度策略。

🎯 应用场景

该研究成果可应用于低资源语言的语言模型预训练、特定领域的文本生成和理解等场景。通过文本简化和课程学习,可以有效提升模型在数据受限环境下的性能,降低模型训练成本,加速相关技术的落地应用。

📄 摘要(原文)

Most studies on language model pretraining focus on large datasets, leaving open questions about optimization in data-constrained settings. In such settings, the effects of training data order and of including alternative versions of the same text remain underexplored. We address this by studying curriculum learning in pretraining, focusing on text-complexity ordering and data augmentation via simplification. We ask: (1) Does simplifying texts enhance representation quality more than reusing the original data? and (2) Does ordering data by text complexity yield better representations? To answer, we build on a pair of parallel corpora where human-written paragraphs are aligned with LLM-simplified variants, and test four data schedules: repeated exposure, low-to-high complexity, high-to-low, and interleaved. We analyze models' representation quality from a sample efficiency perspective via fine-tuning, as well as its zero-shot performance on linguistic knowledge, entity tracking, world knowledge, and commonsense reasoning. Our findings show that adding simplified data improves fine-tuning and zero-shot performance over a repeated-exposure baseline: smaller models benefit from low-to-high complexity, while larger models perform better with interleaved ordering.