Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?
作者: Dadi Guo, Yuejin Xie, Qingyu Liu, Jiayu Liu, Zhiyuan Fan, Qihan Ren, Shuai Shao, Tianyi Zhou, Dongrui Liu, Yi R. Fung
分类: cs.CL
发布日期: 2026-03-03
备注: Under review in ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出Code2Math框架,利用代码智能体自主进化更具挑战性的数学问题
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码智能体 数学问题生成 多智能体系统 大型语言模型 数学推理
📋 核心要点
- 高质量、高难度的数学问题匮乏,限制了大型语言模型数学能力的进一步提升和评估。
- 利用代码智能体在代码编写和推理方面的能力,构建可扩展的数学实验环境,自主进化数学问题。
- 实验证明,代码智能体可以生成结构不同且更具挑战性的新问题,为合成高难度数学推理问题提供可行方案。
📝 摘要(中文)
随着大型语言模型(LLMs)的数学能力不断提升,逐渐逼近IMO水平,高质量、高难度的问题的匮乏成为了训练和评估的重要瓶颈。与此同时,近期的代码智能体在代码编写和推理方面展现出了精湛的技能,表明代码执行可以作为数学实验的可扩展环境。本文研究了代码智能体自主地将现有数学问题演化为更复杂变体的潜力。我们提出了一个多智能体框架,旨在执行问题演化,同时验证生成问题的可解性和难度增加。实验表明,在充分的测试时探索下,代码智能体可以合成新的、可解的问题,这些问题在结构上与原始问题不同,并且更具挑战性。这项工作提供了经验证据,表明代码驱动的智能体可以作为在可扩展计算环境中合成高难度数学推理问题的可行机制。我们的数据可在https://github.com/TarferSoul/Code2Math获取。
🔬 方法详解
问题定义:当前大型语言模型在数学能力上取得了显著进展,但缺乏足够数量的具有挑战性的高质量数学问题来进一步训练和评估这些模型。现有方法难以高效且自动地生成此类问题,阻碍了数学领域AI的进一步发展。
核心思路:利用代码智能体强大的代码编写和推理能力,将数学问题生成过程转化为一个代码执行和探索的过程。通过让智能体在代码环境中进行实验,可以更灵活地生成各种类型的数学问题,并验证其可解性和难度。
技术框架:Code2Math框架采用多智能体架构,包含问题演化智能体和问题验证智能体。问题演化智能体负责修改和扩展原始问题,生成新的问题变体。问题验证智能体则负责评估新问题的可解性和难度,确保生成的问题既有意义又具有挑战性。两个智能体协同工作,不断迭代优化生成的问题。
关键创新:该方法的核心创新在于将数学问题生成过程与代码执行环境相结合,利用代码智能体的自主探索能力来生成新的问题。这种方法摆脱了传统人工设计问题的限制,可以更高效地生成多样化且具有挑战性的数学问题。
关键设计:问题演化智能体使用大型语言模型作为其核心推理引擎,并结合特定的代码模板和约束条件来生成新的问题。问题验证智能体则使用现有的数学求解器和难度评估指标来评估生成的问题。框架还设计了奖励机制,鼓励智能体生成更具挑战性和可解性的问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Code2Math框架能够生成结构上与原始问题不同,且更具挑战性的新问题。通过与人工设计的基线问题进行对比,Code2Math生成的问题在难度和多样性方面均表现出优势,证明了代码智能体在数学问题生成方面的潜力。
🎯 应用场景
Code2Math框架可应用于自动生成数学竞赛题目、个性化数学教育内容以及作为大型语言模型数学能力评测的基准。该研究有助于推动数学教育的智能化发展,并为AI在数学领域的应用提供新的思路。
📄 摘要(原文)
As large language models (LLMs) advance their mathematical capabilities toward the IMO level, the scarcity of challenging, high-quality problems for training and evaluation has become a significant bottleneck. Simultaneously, recent code agents have demonstrated sophisticated skills in agentic coding and reasoning, suggesting that code execution can serve as a scalable environment for mathematical experimentation. In this paper, we investigate the potential of code agents to autonomously evolve existing math problems into more complex variations. We introduce a multi-agent framework designed to perform problem evolution while validating the solvability and increased difficulty of the generated problems. Our experiments demonstrate that, given sufficient test-time exploration, code agents can synthesize new, solvable problems that are structurally distinct from and more challenging than the originals. This work provides empirical evidence that code-driven agents can serve as a viable mechanism for synthesizing high-difficulty mathematical reasoning problems within scalable computational environments. Our data is available at https://github.com/TarferSoul/Code2Math.