Optimsyn: Influence-Guided Rubrics Optimization for Synthetic Data Generation

📄 arXiv: 2604.00536v1 📥 PDF

作者: Zhiting Fan, Ruizhe Chen, Tianxiang Hu, Ru Peng, Zenan Huang, Haokai Xu, Yixin Chen, Jian Wu, Junbo Zhao, Zuozhu Liu

分类: cs.CL, cs.AI

发布日期: 2026-04-01


💡 一句话要点

Optimsyn:利用影响引导的规则优化合成数据生成,提升下游任务性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成数据生成 规则优化 影响估计 强化学习 知识密集型领域

📋 核心要点

  1. 高质量知识密集型领域的监督微调数据稀缺,手工设计规则进行合成数据生成成本高且泛化性差。
  2. Optimsyn 提出利用目标模型在特定任务上的训练效用作为反馈,指导规则优化,从而提升合成数据质量。
  3. 实验结果表明,Optimsyn 在多个领域和目标模型上均取得了持续改进,且具有良好的泛化能力,无需任务特定调整。

📝 摘要(中文)

大型语言模型(LLMs)在下游任务中表现出色,很大程度上归功于丰富的监督微调(SFT)数据。然而,人文、社会科学、医学、法律和金融等知识密集型领域的高质量SFT数据稀缺,因为专家标注成本高昂,隐私限制严格,且标签一致性难以保证。目前的工作通常通过提示生成器处理领域文档,并使用手工设计的规则过滤输出来合成数据。然而,规则设计依赖于专家,跨领域泛化能力差,并且通常通过编写规则、合成数据、训练模型、检查结果和手动猜测修改的脆弱启发式循环进行优化。这个过程缺乏关于规则如何影响下游性能的可靠定量反馈。我们提出通过评估合成数据在目标模型上的训练效用来指导数据生成。受影响估计的启发,我们采用了一种优化器感知的估计器,该估计器使用梯度信息来量化每个合成样本对目标模型在特定任务上的目标函数的贡献。我们的分析表明,即使合成样本和真实样本在嵌入空间中接近,它们对学习的影响也可能大相径庭。基于此,我们提出了一个基于优化的框架,该框架使用目标模型反馈来调整规则。我们提供轻量级的引导文本,并使用规则专用模型来生成任务相关的规则。影响分数被用作奖励,以使用强化学习优化规则生成器。跨领域、目标模型和数据生成器的实验表明,无需特定于任务的调整,即可实现持续改进和强大的泛化能力。

🔬 方法详解

问题定义:现有方法在知识密集型领域生成高质量合成数据时面临挑战。手工设计的规则依赖专家知识,成本高昂且难以泛化。此外,优化规则的过程缺乏定量反馈,导致效率低下。因此,如何自动优化规则,生成高质量的合成数据,以提升下游任务性能,是本文要解决的核心问题。

核心思路:Optimsyn 的核心思路是利用目标模型对合成数据的训练效用作为反馈信号,指导规则的优化。通过估计每个合成样本对目标模型在特定任务上的目标函数的贡献(即影响分数),可以量化规则的有效性,并利用此信息来改进规则生成过程。这种方法避免了人工启发式调整,实现了自动化和数据驱动的规则优化。

技术框架:Optimsyn 包含以下主要模块:1) 引导文本生成器:生成轻量级的引导文本,用于提示规则生成器。2) 规则生成器:使用规则专用模型,根据引导文本生成任务相关的规则。3) 合成数据生成器:利用生成的规则,从领域文档中合成数据。4) 影响估计器:计算每个合成样本对目标模型的影响分数。5) 规则优化器:使用强化学习,根据影响分数优化规则生成器。整体流程是:首先生成引导文本,然后利用规则生成器生成规则,再利用规则生成合成数据,接着计算合成数据的影响分数,最后使用强化学习优化规则生成器,使其生成更有利于目标模型训练的规则。

关键创新:Optimsyn 的关键创新在于利用影响估计来指导规则优化。传统方法依赖人工启发式调整,缺乏定量反馈。Optimsyn 通过计算每个合成样本对目标模型的影响分数,实现了对规则有效性的量化评估,并利用此信息来优化规则生成过程。这种方法将规则优化问题转化为一个可优化的目标,从而实现了自动化和数据驱动的规则优化。

关键设计:Optimsyn 使用优化器感知的估计器来计算影响分数,该估计器利用梯度信息来量化每个合成样本的贡献。规则生成器可以使用各种模型,例如基于 Transformer 的模型。规则优化器使用强化学习算法,例如 PPO,将影响分数作为奖励信号。引导文本生成器的设计需要考虑如何提供足够的信息,以便规则生成器能够生成任务相关的规则。损失函数的设计需要考虑如何平衡规则的多样性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Optimsyn 在多个领域和目标模型上均取得了显著的性能提升。例如,在特定任务上,Optimsyn 能够将目标模型的性能提高 X%。与基线方法相比,Optimsyn 能够生成更高质量的合成数据,从而提升下游任务的准确性和泛化能力。此外,Optimsyn 具有良好的泛化能力,无需针对特定任务进行调整。

🎯 应用场景

Optimsyn 可应用于各种知识密集型领域,例如人文、社会科学、医学、法律和金融等,以生成高质量的合成数据,用于训练大型语言模型。该方法可以降低数据标注成本,解决隐私限制问题,并提高标签一致性。通过提升下游任务性能,Optimsyn 可以促进这些领域中人工智能应用的发展。

📄 摘要(原文)

Large language models (LLMs) achieve strong downstream performance largely due to abundant supervised fine-tuning (SFT) data. However, high-quality SFT data in knowledge-intensive domains such as humanities, social sciences, medicine, law, and finance is scarce because expert curation is expensive, privacy constraints are strict, and label consistency is hard to ensure. Recent work uses synthetic data, typically by prompting a generator over domain documents and filtering outputs with handcrafted rubrics. Yet rubric design is expert-dependent, transfers poorly across domains, and is often optimized through a brittle heuristic loop of writing rubrics, synthesizing data, training, inspecting results, and manually guessing revisions. This process lacks reliable quantitative feedback about how a rubric affects downstream performance. We propose evaluating synthetic data by its training utility on the target model and using this signal to guide data generation. Inspired by influence estimation, we adopt an optimizer-aware estimator that uses gradient information to quantify each synthetic sample's contribution to a target model's objective on specific tasks. Our analysis shows that even when synthetic and real samples are close in embedding space, their influence on learning can differ substantially. Based on this insight, we propose an optimization-based framework that adapts rubrics using target-model feedback. We provide lightweight guiding text and use a rubric-specialized model to generate task-conditioned rubrics. Influence score is used as the reward to optimize the rubric generator with reinforcement learning. Experiments across domains, target models, and data generators show consistent improvements and strong generalization without task-specific tuning.