From Guessing to Placeholding: A Cost-Theoretic Framework for Uncertainty-Aware Code Completion

📄 arXiv: 2604.01849v1 📥 PDF

作者: Liang Zhu, Haolin Chen, Lidong Zhao, Xian Wu

分类: cs.CL

发布日期: 2026-04-02


💡 一句话要点

提出自适应占位符补全框架,通过不确定性感知降低代码编辑成本。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码补全 大型语言模型 不确定性感知 自适应占位符 强化学习

📋 核心要点

  1. 现有代码补全模型在信息不足时仍强制补全,导致大量补全结果需要用户修改或拒绝。
  2. 提出自适应占位符补全(APC)框架,在高熵位置输出占位符,降低错误补全带来的编辑成本。
  3. 实验证明APC在降低编辑成本的同时,保持了传统代码补全的性能,验证了框架的有效性。

📝 摘要(中文)

大型语言模型在代码补全方面表现出色,但通常采用硬补全(HC)模式,即使在上下文信息不足时也强制生成完整代码。对300万次真实交互的分析表明,这种策略存在局限性:61%的生成建议在接受后被编辑或被拒绝,尽管它们与用户后续代码的相似度超过80%,这表明模型经常在特定token位置做出错误预测。为此,我们提出了自适应占位符补全(APC),通过在信息熵较高的位置策略性地输出显式占位符来扩展HC,允许用户通过IDE导航直接填充。理论上,我们将代码补全建模为不确定性下的成本最小化问题。基于填充占位符的成本低于纠正错误的观察,我们证明存在一个临界熵阈值,高于该阈值APC实现的预期成本严格低于HC。我们通过从过滤后的真实编辑日志中构建训练数据,并为强化学习设计基于成本的奖励函数来实例化该框架。在15亿到140亿参数的模型上的广泛评估表明,APC将预期编辑成本降低了19%到50%,同时保留了标准HC性能。我们的工作为不确定性感知的代码补全提供了理论基础和实践训练框架,表明自适应拒绝可以在不牺牲传统补全质量的情况下进行端到端学习。

🔬 方法详解

问题定义:现有代码补全方法(硬补全,HC)在上下文信息不足时,仍然强制生成完整的代码,导致模型容易在不确定的token位置做出错误的预测。用户需要花费大量时间来编辑或拒绝这些错误的补全结果,增加了开发成本。因此,如何让模型在不确定时“知难而退”,避免生成错误的补全,是本文要解决的核心问题。

核心思路:论文的核心思路是引入“占位符”机制,让模型在预测不确定的token时,不直接生成具体的代码,而是生成一个占位符,让用户来填充。这样可以避免模型做出错误的预测,从而减少用户编辑或拒绝代码的成本。论文基于一个关键观察:填充占位符的成本要低于纠正错误的成本。

技术框架:整体框架是自适应占位符补全(APC)。它扩展了传统的硬补全(HC)框架。主要包含以下几个步骤:1. 模型接收代码上下文作为输入。2. 模型预测下一个token,并计算预测的熵值。3. 如果熵值低于预设的阈值,则输出预测的token(如同HC)。4. 如果熵值高于阈值,则输出一个占位符。5. 用户根据占位符提示,手动填充代码。

关键创新:最重要的创新点在于引入了“不确定性感知”机制,让模型能够根据自身预测的不确定性来决定是生成具体的代码还是生成占位符。这种自适应的策略能够有效地降低用户的编辑成本。此外,论文还从理论上证明了,在一定的熵阈值下,APC的预期成本低于HC。

关键设计:论文使用强化学习来训练模型。奖励函数的设计是关键,它需要同时考虑补全的准确性和占位符的使用。奖励函数基于成本模型,该模型量化了生成正确代码、生成错误代码、以及使用占位符的成本。训练数据来自过滤后的真实编辑日志,用于模拟真实的代码补全场景。模型结构方面,可以使用各种大型语言模型作为backbone,例如GPT系列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在15亿到140亿参数的模型上,APC可以将预期编辑成本降低19%到50%,同时保持了标准HC的性能。这表明APC能够在不牺牲传统代码补全质量的前提下,有效地降低用户的编辑成本。此外,实验还验证了理论分析的正确性,即存在一个临界熵阈值,高于该阈值APC的性能优于HC。

🎯 应用场景

该研究成果可应用于各种代码编辑器和IDE中,提升代码补全的智能化水平,降低开发人员的编辑成本,提高开发效率。通过自适应地插入占位符,可以引导开发者关注代码中不确定的部分,从而减少潜在的错误,提升代码质量。未来,该技术还可以扩展到其他自然语言生成任务中,例如文档生成、机器翻译等。

📄 摘要(原文)

While Large Language Models (LLMs) have demonstrated exceptional proficiency in code completion, they typically adhere to a Hard Completion (HC) paradigm, compelling the generation of fully concrete code even amidst insufficient context. Our analysis of 3 million real-world interactions exposes the limitations of this strategy: 61% of the generated suggestions were either edited after acceptance or rejected despite exhibiting over 80% similarity to the user's subsequent code, suggesting that models frequently make erroneous predictions at specific token positions. Motivated by this observation, we propose Adaptive Placeholder Completion (APC), a collaborative framework that extends HC by strategically outputting explicit placeholders at high-entropy positions, allowing users to fill directly via IDE navigation. Theoretically, we formulate code completion as a cost-minimization problem under uncertainty. Premised on the observation that filling placeholders incurs lower cost than correcting errors, we prove the existence of a critical entropy threshold above which APC achieves strictly lower expected cost than HC. We instantiate this framework by constructing training data from filtered real-world edit logs and design a cost-based reward function for reinforcement learning. Extensive evaluations across 1.5B--14B parameter models demonstrate that APC reduces expected editing costs from 19% to 50% while preserving standard HC performance. Our work provides both a theoretical foundation and a practical training framework for uncertainty-aware code completion, demonstrating that adaptive abstention can be learned end-to-end without sacrificing conventional completion quality.