Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

作者: Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao

分类: cs.CL

发布日期: 2025-05-26

备注: Project page: https://github.com/pixeli99/A-CFG

💡 一句话要点

提出自适应无分类器引导以解决生成模型中的不确定性问题

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 自适应引导 生成模型 无分类器引导 动态掩蔽 语言生成

📋 核心要点

现有的无分类器引导方法在处理动态不确定性时，通常依赖静态的无条件输入，导致生成效果不佳。
本文提出的自适应无分类器引导（A-CFG）通过动态调整无条件输入，专注于模型信心低的标记，从而提高生成质量。
实验结果显示，A-CFG在多项语言生成任务中表现优异，相较于标准CFG，GPQA任务上提升了3.9分。

📝 摘要（中文）

无分类器引导（CFG）通过插值条件和无条件预测显著增强了生成模型的可控性。然而，标准CFG通常使用静态的无条件输入，这在模型不确定性动态变化的迭代生成过程中可能表现不佳。本文提出自适应无分类器引导（A-CFG），通过利用模型的瞬时预测信心来调整无条件输入。在每一步的迭代（掩蔽）扩散语言模型中，A-CFG识别当前生成序列中模型信心低的标记，并暂时重新掩蔽这些标记，以创建动态的局部无条件输入。这种方法使CFG的纠正影响精准集中在模糊区域，从而实现更有效的引导。我们将A-CFG集成到最先进的掩蔽扩散语言模型中，并展示其有效性。实验结果表明，A-CFG在多种语言生成基准上显著优于标准CFG，例如在GPQA上提升了3.9分。

🔬 方法详解

问题定义：本文旨在解决生成模型中由于静态无条件输入导致的低效引导问题，特别是在模型不确定性动态变化的情况下，现有方法无法有效应对。

核心思路：A-CFG的核心思想是根据模型的即时预测信心动态调整无条件输入，通过重新掩蔽低信心的标记，集中引导模型在模糊区域的生成。

技术框架：A-CFG的整体架构包括两个主要模块：首先是信心评估模块，用于识别低信心标记；其次是动态掩蔽模块，根据识别结果调整无条件输入，形成局部引导。

关键创新：A-CFG的创新在于其动态适应性，通过实时评估模型信心来调整引导策略，这与传统的静态CFG方法形成鲜明对比。

关键设计：在设计中，A-CFG采用了特定的阈值来判断低信心标记，并结合掩蔽机制进行动态调整，确保引导的有效性和针对性。具体的损失函数和网络结构细节在实验部分进行了详细描述。

📊 实验亮点

实验结果表明，A-CFG在多种语言生成基准上显著优于标准CFG，尤其是在GPQA任务上实现了3.9分的提升，显示出其在动态引导机制上的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言生成、对话系统和文本补全等。通过提高生成模型在不确定性情况下的表现，A-CFG能够为实际应用提供更高质量的生成结果，具有重要的实际价值和未来影响。

📄 摘要（原文）

Classifier-Free Guidance (CFG) significantly enhances controllability in generative models by interpolating conditional and unconditional predictions. However, standard CFG often employs a static unconditional input, which can be suboptimal for iterative generation processes where model uncertainty varies dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel method that tailors the unconditional input by leveraging the model's instantaneous predictive confidence. At each step of an iterative (masked) diffusion language model, A-CFG identifies tokens in the currently generated sequence for which the model exhibits low confidence. These tokens are temporarily re-masked to create a dynamic, localized unconditional input. This focuses CFG's corrective influence precisely on areas of ambiguity, leading to more effective guidance. We integrate A-CFG into a state-of-the-art masked diffusion language model and demonstrate its efficacy. Experiments on diverse language generation benchmarks show that A-CFG yields substantial improvements over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work highlights the benefit of dynamically adapting guidance mechanisms to model uncertainty in iterative generation.

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册