RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning

📄 arXiv: 2604.00790v1 📥 PDF

作者: Shaopeng Fu, Xingxing Zhang, Li Dong, Di Wang, Furu Wei

分类: cs.AI

发布日期: 2026-04-01


💡 一句话要点

提出RefineRL,利用自精炼强化学习提升LLM在编程竞赛中的表现

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自精炼 强化学习 大型语言模型 编程竞赛 迭代改进

📋 核心要点

  1. 现有方法在编程竞赛中主要关注LLM的单次尝试,忽略了其迭代改进的能力。
  2. RefineRL通过Skeptical-Agent和强化学习,鼓励LLM进行迭代自精炼,提升解题能力。
  3. 实验表明,RefineRL使小型LLM(4B)性能超越大型LLM(32B),接近更大模型(235B)的单次尝试水平。

📝 摘要(中文)

本文提出RefineRL,一种旨在释放大型语言模型(LLM)在编程竞赛(CP)问题解决中自精炼能力的新方法。RefineRL引入了两项关键创新:(1) Skeptical-Agent,一个迭代自精炼代理,配备本地执行工具,用于根据CP问题的公共测试用例验证生成的解决方案。该代理始终对其自身的输出保持怀疑态度,从而即使在验证表明正确时,也能强制执行严格的自精炼。(2) 一种强化学习(RL)解决方案,用于激励LLM仅使用标准RLVR数据(即,问题及其可验证答案配对)进行自精炼。在Qwen3-4B和Qwen3-4B-2507上的大量实验表明,我们的方法产生了显著的收益:经过我们的RL训练,这些紧凑的4B模型与Skeptical-Agent集成后,不仅优于更大的32B模型,而且接近235B模型的单次尝试性能。这些发现表明,自精炼在扩展LLM推理方面具有相当大的潜力,并具有进一步发展的巨大潜力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在编程竞赛(CP)问题解决中,缺乏有效利用自身迭代改进能力的问题。现有方法主要依赖单次生成解决方案,未能充分挖掘LLM的自精炼潜力,导致性能受限。

核心思路:论文的核心思路是设计一个能够迭代自精炼的代理(Skeptical-Agent),并利用强化学习(RL)来激励LLM进行有效的自精炼。通过对自身输出保持怀疑态度,并结合本地执行工具进行验证,代理能够不断改进解决方案,最终提升解题能力。

技术框架:RefineRL的整体框架包含以下几个主要模块:1) LLM作为基础模型,负责生成初始解决方案和后续的改进方案;2) Skeptical-Agent,负责对LLM生成的解决方案进行验证和评估,并指导LLM进行迭代改进;3) 本地执行工具,用于在公共测试用例上执行LLM生成的解决方案,并提供反馈;4) 强化学习模块,用于训练LLM,使其能够更好地进行自精炼。整个流程是一个迭代的过程,LLM根据Skeptical-Agent的反馈不断改进解决方案,直到达到预定的停止条件。

关键创新:RefineRL最重要的技术创新点在于Skeptical-Agent的设计和强化学习的引入。Skeptical-Agent通过对自身输出保持怀疑态度,并结合本地执行工具进行验证,能够有效地发现和纠正LLM生成的错误。强化学习则能够激励LLM进行有效的自精炼,使其能够更好地利用Skeptical-Agent的反馈。与现有方法相比,RefineRL能够更充分地挖掘LLM的自精炼潜力,从而提升解题能力。

关键设计:Skeptical-Agent的关键设计在于其怀疑机制和验证机制。怀疑机制使得代理能够始终保持对自身输出的批判性态度,从而避免过度自信导致的错误。验证机制则通过本地执行工具对解决方案进行验证,从而提供客观的反馈。强化学习的关键设计在于奖励函数的设计,奖励函数需要能够有效地激励LLM进行自精炼,例如,可以根据解决方案的正确性和改进幅度来设计奖励函数。具体的参数设置和网络结构等技术细节在论文中可能没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过RefineRL训练后,Qwen3-4B和Qwen3-4B-2507模型在编程竞赛中的表现显著提升,不仅超越了更大的32B模型,而且接近了235B模型的单次尝试性能。这表明RefineRL能够有效地提升LLM的推理能力,并降低对模型规模的依赖。

🎯 应用场景

RefineRL具有广泛的应用前景,可应用于各种需要复杂推理和迭代改进的任务,如代码生成、数学问题求解、文本摘要等。该研究有助于提升LLM在这些任务中的性能,并降低对模型规模的需求,具有重要的实际价值和未来影响。

📄 摘要(原文)

While large language models (LLMs) have demonstrated strong performance on complex reasoning tasks such as competitive programming (CP), existing methods predominantly focus on single-attempt settings, overlooking their capacity for iterative refinement. In this paper, we present RefineRL, a novel approach designed to unleash the self-refinement capabilities of LLMs for CP problem solving. RefineRL introduces two key innovations: (1) Skeptical-Agent, an iterative self-refinement agent equipped with local execution tools to validate generated solutions against public test cases of CP problems. This agent always maintains a skeptical attitude towards its own outputs and thereby enforces rigorous self-refinement even when validation suggests correctness. (2) A reinforcement learning (RL) solution to incentivize LLMs to self-refine with only standard RLVR data (i.e., problems paired with their verifiable answers). Extensive experiments on Qwen3-4B and Qwen3-4B-2507 demonstrate that our method yields substantial gains: after our RL training, these compact 4B models integrated with the Skeptical-Agent not only outperform much larger 32B models but also approach the single-attempt performance of 235B models. These findings suggest that self-refinement holds considerable promise for scaling LLM reasoning, with significant potential for further advancement.