Think, But Don't Overthink: Reproducing Recursive Language Models
作者: Daren Wang
分类: cs.CL
发布日期: 2026-03-03
🔗 代码/项目: GITHUB
💡 一句话要点
复现递归语言模型:过深递归导致模型“过度思考”
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 递归语言模型 长上下文处理 大语言模型 深度学习 智能代理 模型评估 推理任务
📋 核心要点
- 现有大语言模型在处理超长上下文时面临挑战,计算和资源消耗巨大。
- 递归语言模型通过外部REPL环境卸载提示,实现对近乎无限上下文的处理。
- 实验表明,增加递归深度可能导致模型“过度思考”,反而降低性能并增加开销。
📝 摘要(中文)
本项目旨在复现并扩展Zhang et al. (2026) 近期提出的“递归语言模型”(RLMs)框架。该框架使大型语言模型(LLMs)能够通过将提示卸载到外部REPL环境中来处理近乎无限的上下文。虽然原始论文依赖于默认的递归深度1,并建议更深的递归作为未来的方向,但本研究专门调查了扩展递归深度带来的影响。使用最先进的开源代理模型(DeepSeek v3.2和Kimi K2),我在S-NIAH和OOLONG基准上评估了纯LLM、RLM(深度=1)和RLM(深度=2)。研究结果揭示了一个引人注目的现象:更深的递归会导致模型“过度思考”。虽然深度为1的RLM有效地提高了复杂推理任务的准确性,但在简单检索任务上应用更深的递归(深度=2)或使用RLM反而会降低性能,并呈指数级地增加执行时间(例如,从3.6秒到344.5秒)和token成本。代码和数据可在https://github.com/drbillwang/rlm-reproduction 获取。
🔬 方法详解
问题定义:论文旨在研究递归语言模型(RLMs)中递归深度对性能的影响。现有RLM研究通常采用较浅的递归深度,而更深层次的递归是否能带来性能提升尚不明确。此外,现有方法在简单任务上的表现以及计算开销也需要进一步考察。
核心思路:论文的核心思路是探究递归深度与模型性能之间的关系。作者假设,虽然浅层递归可能有助于复杂推理,但过深的递归可能导致模型在不必要的中间步骤上花费过多精力,从而降低效率和准确性,尤其是在简单任务上。
技术框架:整体框架包括三个主要部分:纯LLM、RLM(深度=1)和RLM(深度=2)。RLM框架利用外部REPL环境,将原始问题分解为子问题,LLM在REPL环境中执行子问题并获取结果,然后将结果用于后续推理。递归深度决定了问题分解和执行的层数。
关键创新:该研究的关键创新在于发现了递归深度与模型性能之间的非单调关系,即存在一个最优的递归深度。过深的递归会导致“过度思考”,反而降低性能。此外,该研究还量化了不同递归深度对计算时间和token成本的影响。
关键设计:实验中使用了DeepSeek v3.2和Kimi K2作为基础LLM。评估指标包括在S-NIAH和OOLONG基准上的准确率、执行时间和token成本。递归深度设置为1和2,以考察不同深度对性能的影响。没有特别提及损失函数或网络结构等技术细节,因为重点在于递归框架本身。
🖼️ 关键图片
📊 实验亮点
实验结果表明,深度为1的RLM在复杂推理任务上有效提升了准确率,但深度为2的RLM在简单检索任务上反而降低了性能,并且显著增加了执行时间和token成本(例如,执行时间从3.6秒增加到344.5秒)。这表明过深的递归会导致模型“过度思考”,降低效率。
🎯 应用场景
该研究成果可应用于需要处理长上下文的各种场景,例如智能客服、文档摘要、代码生成等。通过合理控制递归深度,可以提高LLM在复杂推理任务中的性能,同时避免过度计算和资源浪费。未来的研究可以探索自适应递归深度调整策略,根据任务的复杂程度动态调整递归深度。
📄 摘要(原文)
This project reproduces and extends the recently proposed
Recursive Language Models'' (RLMs) framework by Zhang et al. (2026). This framework enables Large Language Models (LLMs) to process near-infinite contexts by offloading the prompt into an external REPL environment. While the original paper relies on a default recursion depth of 1 and suggests deeper recursion as a future direction, this study specifically investigates the impact of scaling the recursion depth. Using state-of-the-art open-source agentic models (DeepSeek v3.2 and Kimi K2), I evaluated pure LLM, RLM (depth=1), and RLM (depth=2) on the S-NIAH and OOLONG benchmarks. The findings reveal a compelling phenomenon: Deeper recursion causes models tooverthink''. While depth-1 RLMs effectively boost accuracy on complex reasoning tasks, applying deeper recursion (depth=2) or using RLMs on simple retrieval tasks paradoxically degrades performance and exponentially inflates execution time (e.g., from 3.6s to 344.5s) and token costs. Code and data are available at: https://github.com/drbillwang/rlm-reproduction