Adam's Law: Textual Frequency Law on Large Language Models

📄 arXiv: 2604.02176v1 📥 PDF

作者: Hongyuan Adam Lu, Z. L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam

分类: cs.CL

发布日期: 2026-04-02


💡 一句话要点

提出文本频率定律,提升大语言模型在提示、微调等任务上的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 文本频率 文本频率定律 课程学习 文本蒸馏

📋 核心要点

  1. 现有研究较少关注文本频率与大语言模型的关系,而文本频率在人类认知中已被验证与阅读速度相关。
  2. 论文提出文本频率定律,认为高频文本更适合LLM的prompt和fine-tuning,并利用在线资源估计句子频率。
  3. 实验表明,通过文本频率释义、蒸馏和课程学习,该框架在多个任务上提升了LLM的性能。

📝 摘要(中文)

本文提出了一种基于文本数据频率的新研究方向,旨在探索文本频率与大语言模型(LLMs)的相关性。首先,论文提出了文本频率定律(TFL),该定律表明,对于LLMs而言,更频繁出现的文本数据在提示和微调方面更受欢迎。由于许多LLMs的训练数据是闭源的,因此论文提出使用在线资源来估计句子级别的频率。然后,利用输入释义器将输入释义为更频繁的文本表达。其次,论文提出了文本频率蒸馏(TFD),通过查询LLMs来扩展数据集中的句子,从而进行故事补全,并将生成的语料库用于调整初始估计。最后,论文提出了课程文本频率训练(CTFT),该方法以句子级别频率递增的顺序对LLMs进行微调。在数学推理、机器翻译、常识推理和代理工具调用等任务上,论文在自建数据集文本频率配对数据集(TFPD)上进行了实验,结果表明了该框架的有效性。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)在处理文本时,如何更好地利用文本频率信息以提升性能的问题。现有方法忽略了文本频率这一重要因素,或者难以获取LLMs训练数据中的文本频率信息,导致模型在某些任务上表现不佳。

核心思路:论文的核心思路是,更频繁出现的文本表达方式更易于LLMs理解和处理。因此,通过将输入转换为更频繁的表达方式,或者在训练过程中优先使用更频繁的文本数据,可以提升LLMs的性能。这种思路借鉴了人类认知中对高频词汇的偏好。

技术框架:该框架包含三个主要模块:1) 文本频率估计:利用在线资源(如搜索引擎)估计句子级别的文本频率。2) 文本频率增强:使用输入释义器将输入文本转换为更频繁的表达方式,并使用文本频率蒸馏(TFD)通过LLM生成更频繁的文本数据。TFD通过让LLM进行故事补全,扩展数据集,并利用生成的数据调整频率估计。3) 课程学习微调:采用课程文本频率训练(CTFT),按照句子频率递增的顺序对LLMs进行微调。

关键创新:论文的关键创新在于提出了文本频率定律(TFL),并将其应用于LLMs的prompting和fine-tuning。与现有方法相比,该方法显式地考虑了文本频率这一因素,并设计了一套完整的框架来利用文本频率信息。TFD和CTFT是该框架中的两个重要组成部分,分别用于增强文本频率和优化训练过程。

关键设计:在文本频率估计方面,论文使用了在线资源进行近似估计,避免了直接访问闭源LLM训练数据的困难。在文本频率蒸馏(TFD)中,通过控制LLM生成文本的长度和风格,可以有效地扩展数据集并调整频率估计。在课程文本频率训练(CTFT)中,需要仔细设计课程,以确保模型能够逐步学习到更复杂的文本表达方式。具体的参数设置和损失函数选择取决于具体的任务和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在数学推理、机器翻译、常识推理和代理工具调用等任务上均取得了显著的性能提升。例如,在某些任务上,该框架可以将LLMs的准确率提高几个百分点。这些结果验证了文本频率定律的有效性,并表明该框架具有广泛的应用前景。

🎯 应用场景

该研究成果可应用于各种自然语言处理任务,例如机器翻译、文本摘要、对话生成等。通过利用文本频率信息,可以提升LLMs在这些任务上的性能和鲁棒性。此外,该研究还可以用于评估和比较不同LLMs的语言能力,以及指导LLMs的训练和优化。

📄 摘要(原文)

While textual frequency has been validated as relevant to human cognition in reading speed, its relatedness to Large Language Models (LLMs) is seldom studied. We propose a novel research direction in terms of textual data frequency, which is an understudied topic, to the best of our knowledge. Our framework is composed of three units. First, this paper proposes Textual Frequency Law (TFL), which indicates that frequent textual data should be preferred for LLMs for both prompting and fine-tuning. Since many LLMs are closed-source in their training data, we propose using online resources to estimate the sentence-level frequency. We then utilize an input paraphraser to paraphrase the input into a more frequent textual expression. Next, we propose Textual Frequency Distillation (TFD) by querying LLMs to conduct story completion by further extending the sentences in the datasets, and the resulting corpora are used to adjust the initial estimation. Finally, we propose Curriculum Textual Frequency Training (CTFT) that fine-tunes LLMs in an increasing order of sentence-level frequency. Experiments are conducted on our curated dataset Textual Frequency Paired Dataset (TFPD) on math reasoning, machine translation, commonsense reasoning and agentic tool calling. Results show the effectiveness of our framework.