Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

📄 arXiv: 2603.03180v1 📥 PDF

作者: Y. Zhong, R. Huang, M. Wang, Z. Guo, YC. Li, M. Yu, Z. Jin

分类: cs.SE, cs.AI, cs.CL

发布日期: 2026-03-03


💡 一句话要点

提出类型感知检索增强生成方法,解决工业优化建模中模型可执行性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业优化建模 检索增强生成 知识图谱 依赖闭包 类型感知

📋 核心要点

  1. 大型语言模型在工业优化建模中常因缺失声明、类型不一致和依赖上下文不完整而生成不可编译的模型。
  2. 提出类型感知的检索增强生成方法,构建领域知识图谱,通过混合检索和依赖传播计算最小依赖闭包上下文。
  3. 在电池生产和柔性作业车间调度案例中验证,生成的模型可执行且达到已知最优解,优于传统RAG方法。

📝 摘要(中文)

本文提出了一种类型感知的检索增强生成(RAG)方法,该方法通过强制建模实体类型和最小依赖闭包来确保可执行性,从而实现工业优化建模的自动化,并可靠地将自然语言需求转化为可执行代码。与索引非结构化文本的现有RAG方法不同,本文方法通过将学术论文和求解器代码等异构来源解析为类型化单元,并在知识图中编码其数学依赖关系,从而构建特定领域的类型化知识库。给定自然语言指令,该方法执行混合检索,并通过图上的依赖传播计算最小依赖闭包上下文,即求解器可执行代码所需的最小类型化符号集。在电池生产中的需求响应优化和柔性作业车间调度这两个约束密集型工业案例中验证了该方法。结果表明,该方法能够生成可执行的模型,并在跨领域泛化方面表现出鲁棒性。消融研究证实,强制执行类型感知的依赖闭包对于避免结构性幻觉和确保可执行性至关重要。

🔬 方法详解

问题定义:工业优化建模需要将自然语言的需求转化为求解器可执行的代码。现有方法,特别是基于大型语言模型的方法,经常生成不可编译的模型,主要原因是缺少必要的声明、类型不一致以及依赖上下文不完整,导致模型无法直接运行。

核心思路:核心思路是构建一个类型感知的知识库,并利用该知识库进行检索增强生成。通过对异构数据源(如学术论文和求解器代码)进行解析,提取出类型化的建模实体,并将其数学依赖关系编码到知识图中。在生成代码时,利用该知识图谱进行依赖传播,找到生成可执行代码所需的最小依赖闭包上下文。

技术框架:整体框架包含以下几个主要模块:1) 类型化知识库构建:从异构数据源解析出类型化的建模实体,并构建知识图谱,其中节点表示建模实体,边表示实体之间的数学依赖关系。2) 混合检索:根据自然语言指令,从知识库中检索相关的建模实体。3) 依赖传播:在知识图谱上进行依赖传播,计算生成可执行代码所需的最小依赖闭包上下文。4) 代码生成:基于检索到的建模实体和依赖闭包上下文,生成求解器可执行的代码。

关键创新:最重要的创新点在于类型感知的依赖闭包。与传统的RAG方法不同,该方法不仅检索相关的文本片段,还考虑了建模实体的类型信息和依赖关系。通过强制执行类型感知的依赖闭包,可以避免结构性幻觉,确保生成的代码是可执行的。

关键设计:知识库构建过程中,需要定义建模实体的类型体系,并设计合适的解析规则,从异构数据源中提取类型化的建模实体。依赖传播算法需要高效地计算最小依赖闭包上下文。代码生成模块需要根据建模实体的类型和依赖关系,生成符合求解器语法的代码。

📊 实验亮点

在电池生产的需求响应优化案例中,该方法生成的模型能够整合需求响应激励和负荷削减约束,实现削峰填谷,同时保持盈利能力,而传统RAG方法失败。在柔性作业车间调度案例中,该方法始终生成可编译的模型,并达到已知的最优解,展示了强大的跨领域泛化能力,而基线方法完全失效。消融实验表明,类型感知的依赖闭包对于避免结构性幻觉和确保可执行性至关重要。

🎯 应用场景

该研究成果可应用于各种工业优化建模场景,例如生产调度、能源管理、供应链优化等。通过自动化建模过程,可以显著降低建模成本,提高建模效率,并支持快速响应市场变化。该方法还可以促进领域知识的积累和共享,为工程优化提供更强大的工具。

📄 摘要(原文)

Automated industrial optimization modeling requires reliable translation of natural-language requirements into solver-executable code. However, large language models often generate non-compilable models due to missing declarations, type inconsistencies, and incomplete dependency contexts. We propose a type-aware retrieval-augmented generation (RAG) method that enforces modeling entity types and minimal dependency closure to ensure executability. Unlike existing RAG approaches that index unstructured text, our method constructs a domain-specific typed knowledge base by parsing heterogeneous sources, such as academic papers and solver code, into typed units and encoding their mathematical dependencies in a knowledge graph. Given a natural-language instruction, it performs hybrid retrieval and computes a minimal dependency-closed context, the smallest set of typed symbols required for solver-executable code, via dependency propagation over the graph. We validate the method on two constraint-intensive industrial cases: demand response optimization in battery production and flexible job shop scheduling. In the first case, our method generates an executable model incorporating demand-response incentives and load-reduction constraints, achieving peak shaving while preserving profitability; conventional RAG baselines fail. In the second case, it consistently produces compilable models that reach known optimal solutions, demonstrating robust cross-domain generalization; baselines fail entirely. Ablation studies confirm that enforcing type-aware dependency closure is essential for avoiding structural hallucinations and ensuring executability, addressing a critical barrier to deploying large language models in complex engineering optimization tasks.