RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning

作者: Shaopeng Fu, Xingxing Zhang, Li Dong, Di Wang, Furu Wei

分类: cs.AI

发布日期: 2026-04-01

💡 一句话要点

提出RefineRL，利用自精炼强化学习提升LLM在编程竞赛中的表现

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自精炼 强化学习 大型语言模型 编程竞赛 迭代改进

📋 核心要点

现有方法在编程竞赛中主要关注LLM的单次尝试，忽略了其迭代改进的能力。
RefineRL通过Skeptical-Agent和强化学习，鼓励LLM进行迭代自精炼，提升解题能力。
实验表明，RefineRL使小型LLM（4B）性能超越大型LLM（32B），接近更大模型（235B）的单次尝试水平。

📝 摘要（中文）

本文提出RefineRL，一种旨在释放大型语言模型(LLM)在编程竞赛(CP)问题解决中自精炼能力的新方法。RefineRL引入了两项关键创新：(1) Skeptical-Agent，一个迭代自精炼代理，配备本地执行工具，用于根据CP问题的公共测试用例验证生成的解决方案。该代理始终对其自身的输出保持怀疑态度，从而即使在验证表明正确时，也能强制执行严格的自精炼。(2) 一种强化学习(RL)解决方案，用于激励LLM仅使用标准RLVR数据（即，问题及其可验证答案配对）进行自精炼。在Qwen3-4B和Qwen3-4B-2507上的大量实验表明，我们的方法产生了显著的收益：经过我们的RL训练，这些紧凑的4B模型与Skeptical-Agent集成后，不仅优于更大的32B模型，而且接近235B模型的单次尝试性能。这些发现表明，自精炼在扩展LLM推理方面具有相当大的潜力，并具有进一步发展的巨大潜力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在编程竞赛（CP）问题解决中，缺乏有效利用自身迭代改进能力的问题。现有方法主要依赖单次生成解决方案，未能充分挖掘LLM的自精炼潜力，导致性能受限。

核心思路：论文的核心思路是设计一个能够迭代自精炼的代理（Skeptical-Agent），并利用强化学习（RL）来激励LLM进行有效的自精炼。通过对自身输出保持怀疑态度，并结合本地执行工具进行验证，代理能够不断改进解决方案，最终提升解题能力。

技术框架：RefineRL的整体框架包含以下几个主要模块：1) LLM作为基础模型，负责生成初始解决方案和后续的改进方案；2) Skeptical-Agent，负责对LLM生成的解决方案进行验证和评估，并指导LLM进行迭代改进；3) 本地执行工具，用于在公共测试用例上执行LLM生成的解决方案，并提供反馈；4) 强化学习模块，用于训练LLM，使其能够更好地进行自精炼。整个流程是一个迭代的过程，LLM根据Skeptical-Agent的反馈不断改进解决方案，直到达到预定的停止条件。

关键创新：RefineRL最重要的技术创新点在于Skeptical-Agent的设计和强化学习的引入。Skeptical-Agent通过对自身输出保持怀疑态度，并结合本地执行工具进行验证，能够有效地发现和纠正LLM生成的错误。强化学习则能够激励LLM进行有效的自精炼，使其能够更好地利用Skeptical-Agent的反馈。与现有方法相比，RefineRL能够更充分地挖掘LLM的自精炼潜力，从而提升解题能力。

关键设计：Skeptical-Agent的关键设计在于其怀疑机制和验证机制。怀疑机制使得代理能够始终保持对自身输出的批判性态度，从而避免过度自信导致的错误。验证机制则通过本地执行工具对解决方案进行验证，从而提供客观的反馈。强化学习的关键设计在于奖励函数的设计，奖励函数需要能够有效地激励LLM进行自精炼，例如，可以根据解决方案的正确性和改进幅度来设计奖励函数。具体的参数设置和网络结构等技术细节在论文中可能没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过RefineRL训练后，Qwen3-4B和Qwen3-4B-2507模型在编程竞赛中的表现显著提升，不仅超越了更大的32B模型，而且接近了235B模型的单次尝试性能。这表明RefineRL能够有效地提升LLM的推理能力，并降低对模型规模的依赖。

🎯 应用场景

RefineRL具有广泛的应用前景，可应用于各种需要复杂推理和迭代改进的任务，如代码生成、数学问题求解、文本摘要等。该研究有助于提升LLM在这些任务中的性能，并降低对模型规模的需求，具有重要的实际价值和未来影响。

📄 摘要（原文）

While large language models (LLMs) have demonstrated strong performance on complex reasoning tasks such as competitive programming (CP), existing methods predominantly focus on single-attempt settings, overlooking their capacity for iterative refinement. In this paper, we present RefineRL, a novel approach designed to unleash the self-refinement capabilities of LLMs for CP problem solving. RefineRL introduces two key innovations: (1) Skeptical-Agent, an iterative self-refinement agent equipped with local execution tools to validate generated solutions against public test cases of CP problems. This agent always maintains a skeptical attitude towards its own outputs and thereby enforces rigorous self-refinement even when validation suggests correctness. (2) A reinforcement learning (RL) solution to incentivize LLMs to self-refine with only standard RLVR data (i.e., problems paired with their verifiable answers). Extensive experiments on Qwen3-4B and Qwen3-4B-2507 demonstrate that our method yields substantial gains: after our RL training, these compact 4B models integrated with the Skeptical-Agent not only outperform much larger 32B models but also approach the single-attempt performance of 235B models. These findings suggest that self-refinement holds considerable promise for scaling LLM reasoning, with significant potential for further advancement.

RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理