Execution-Verified Reinforcement Learning for Optimization Modeling

作者: Runda Guan, Xiangqing Shen, Jiajun Zhang, Yifan Zhang, Jian Cheng, Rui Xia

分类: cs.AI, cs.CL

发布日期: 2026-04-01

💡 一句话要点

提出EVOM框架，通过执行验证强化学习实现优化建模的自动化，并支持跨求解器泛化。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 优化建模 强化学习 大语言模型 执行验证 跨求解器泛化

📋 核心要点

现有优化建模方法依赖闭源LLM或流程监督，存在推理延迟高、易过拟合等问题。
EVOM框架将求解器视为验证器，通过执行结果生成奖励，利用强化学习优化建模过程。
实验表明，EVOM性能优于流程监督方法，支持零样本求解器迁移和低成本求解器适配。

📝 摘要（中文）

本文提出了一种名为执行验证优化建模（EVOM）的框架，旨在利用LLM自动化优化建模。现有方法要么依赖于闭源LLM上的agentic流水线，推理延迟高；要么微调小型LLM，使用昂贵的流程监督，容易过拟合到单一求解器API。EVOM将数学规划求解器视为确定性的交互验证器，通过执行验证的强化学习来解决这些问题。给定自然语言问题和目标求解器，EVOM生成求解器特定的代码，在沙盒环境中执行，并将执行结果转化为标量奖励，使用GRPO和DAPO进行优化，形成闭环的生成-执行-反馈-更新过程。这种仅基于结果的公式消除了对流程级别监督的需求，并通过切换验证环境而非重建求解器特定数据集来实现跨求解器的泛化。在NL4OPT、MAMO、IndustryOR和OptiBench上，针对Gurobi、OR-Tools和COPT的实验表明，EVOM与流程监督的SFT相当或优于它，支持零样本求解器迁移，并通过在目标求解器后端下继续训练来实现有效的低成本求解器适配。

🔬 方法详解

问题定义：现有方法在利用LLM进行优化建模时，面临两个主要问题。一是依赖于闭源LLM构建的agentic流水线，推理延迟较高。二是使用流程监督微调小型LLM，虽然降低了延迟，但训练数据需要详细的流程标注，成本高昂，且容易过拟合到特定的求解器API，泛化能力差。

核心思路：EVOM的核心思路是将数学规划求解器视为一个确定性的、交互式的验证器。LLM生成求解器特定的代码，然后由求解器执行，执行结果（例如，是否找到可行解、目标函数值等）被转化为标量奖励。通过强化学习，LLM学习生成能够获得高奖励的代码，从而实现优化建模。这种基于结果的奖励机制避免了对流程的监督，提高了泛化能力。

技术框架：EVOM的整体框架是一个闭环的生成-执行-反馈-更新过程。首先，给定一个自然语言描述的优化问题，LLM生成求解器特定的代码。然后，该代码在一个沙盒环境中执行，以确保安全。执行结果被转化为标量奖励，反馈给LLM。LLM使用强化学习算法（如GRPO或DAPO）更新其参数，以生成更好的代码。这个过程不断迭代，直到LLM能够生成高质量的优化模型。

关键创新：EVOM最重要的创新在于其基于执行验证的奖励机制。与传统的流程监督方法不同，EVOM只关注代码的执行结果，而不需要对代码的生成过程进行详细的标注。这大大降低了训练数据的成本，并提高了模型的泛化能力。此外，EVOM还支持跨求解器的泛化，只需切换验证环境，而无需重新构建求解器特定的数据集。

关键设计：EVOM的关键设计包括：1) 使用沙盒环境来执行生成的代码，以确保安全；2) 设计合适的奖励函数，将求解器的执行结果转化为标量奖励；3) 使用强化学习算法（如GRPO或DAPO）来优化LLM的参数；4) 设计跨求解器的泛化策略，通过切换验证环境来实现求解器的迁移。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EVOM在NL4OPT、MAMO、IndustryOR和OptiBench等数据集上，针对Gurobi、OR-Tools和COPT等求解器，性能与流程监督的SFT方法相当或更优。EVOM还支持零样本求解器迁移，并且可以通过在目标求解器后端下继续训练来实现有效的低成本求解器适配。这些结果验证了EVOM的有效性和泛化能力。

🎯 应用场景

EVOM可应用于各种需要优化建模的领域，如供应链管理、资源分配、金融投资等。它能够降低优化建模的门槛，使非专业人士也能快速构建和求解优化模型。此外，EVOM的跨求解器泛化能力使其能够适应不同的求解器环境，提高了模型的灵活性和可移植性。未来，EVOM有望成为自动化优化建模的重要工具。

📄 摘要（原文）

Automating optimization modeling with LLMs is a promising path toward scalable decision intelligence, but existing approaches either rely on agentic pipelines built on closed-source LLMs with high inference latency, or fine-tune smaller LLMs using costly process supervision that often overfits to a single solver API. Inspired by reinforcement learning with verifiable rewards, we propose Execution-Verified Optimization Modeling (EVOM), an execution-verified learning framework that treats a mathematical programming solver as a deterministic, interactive verifier. Given a natural-language problem and a target solver, EVOM generates solver-specific code, executes it in a sandboxed harness, and converts execution outcomes into scalar rewards, optimized with GRPO and DAPO in a closed-loop generate-execute-feedback-update process. This outcome-only formulation removes the need for process-level supervision, and enables cross-solver generalization by switching the verification environment rather than reconstructing solver-specific datasets. Experiments on NL4OPT, MAMO, IndustryOR, and OptiBench across Gurobi, OR-Tools, and COPT show that EVOM matches or outperforms process-supervised SFT, supports zero-shot solver transfer, and achieves effective low-cost solver adaptation by continuing training under the target solver backend.

Execution-Verified Reinforcement Learning for Optimization Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理