Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning

📄 arXiv: 2604.01170v1 📥 PDF

作者: Cai Zhou, Zekai Wang, Menghua Wu, Qianyu Julie Zhu, Flora C. Shi, Chenyu Wang, Ashia Wilson, Tommi Jaakkola, Stephen Bates

分类: cs.LG, cs.AI, cs.CL, stat.AP, stat.ML

发布日期: 2026-04-01

备注: 20 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出在线推理校准ORCA,通过测试时训练提升LLM推理的泛化性和效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在线推理校准 共形预测 测试时训练 大型语言模型 分布偏移

📋 核心要点

  1. 现有大语言模型推理效率低,源于模型校准不足和采样技术缺乏校准。
  2. ORCA框架通过结合共形预测和测试时训练,在线校准采样过程,提升推理效率。
  3. 实验表明,ORCA在同分布和跨域任务中均能显著提升效率,同时保持低错误率。

📝 摘要(中文)

本文提出了一种名为在线推理校准(ORCA)的框架,用于校准大型语言模型(LLM)的采样过程,该框架结合了共形预测和测试时训练。ORCA引入了一种元学习程序,可以为每个输入更新校准模块。这使得模型能够在分布偏移下提供有效的置信度估计,例如在推理的不同阶段出现的思维模式,或者模型开发和部署之间的提示分布。ORCA不仅在共形风险方面提供了理论保证,而且在经验上表明了在不同推理任务中更高的效率和泛化能力。在风险水平δ=0.1时,ORCA提高了Qwen2.5-32B在同分布任务上的效率,使用监督标签时节省高达47.5%,使用自洽性标签时节省高达40.7%。在零样本跨域设置下,它将MATH-500的节省比例从静态校准基线的24.8%提高到67.0%,同时保持较低的经验误差率,并且相同的趋势适用于不同的模型系列和下游基准。

🔬 方法详解

问题定义:现有的大型语言模型在解决复杂推理任务时,往往需要大量的计算资源,这主要是由于模型本身校准不足,以及常用的采样方法缺乏校准机制。这导致模型在推理过程中产生不准确的置信度估计,从而影响效率和泛化能力。特别是在分布偏移的情况下,例如推理过程中思维模式的变化或提示分布的差异,现有方法难以保证推理的可靠性。

核心思路:ORCA的核心思路是通过在线校准采样过程来解决上述问题。具体来说,ORCA利用共形预测的思想,为每个输入动态地调整校准模块,从而提供有效的置信度估计。这种在线校准的方式能够适应分布偏移,提高模型在不同推理阶段和不同提示下的泛化能力。

技术框架:ORCA框架包含一个预训练的大型语言模型和一个可学习的校准模块。该框架采用元学习的训练方式,在测试时,针对每个输入,利用少量数据对校准模块进行微调。具体流程如下:1) 输入问题;2) LLM生成多个候选答案;3) 校准模块评估每个答案的置信度;4) 基于置信度选择最终答案。校准模块的更新基于共形预测的原则,旨在保证预测结果的有效性。

关键创新:ORCA的关键创新在于其在线校准机制。与传统的静态校准方法不同,ORCA能够根据每个输入的特点动态地调整校准参数,从而更好地适应分布偏移。此外,ORCA结合了共形预测和测试时训练,为推理结果提供了理论上的保证。

关键设计:ORCA的关键设计包括:1) 使用元学习训练校准模块,使其能够快速适应新的输入;2) 基于共形预测的损失函数,保证预测结果的有效性;3) 设计高效的测试时训练策略,减少计算开销。具体的参数设置和网络结构取决于具体的应用场景和预训练模型。

📊 实验亮点

ORCA在Qwen2.5-32B模型上取得了显著的性能提升。在同分布任务中,使用监督标签时效率提升高达47.5%,使用自洽性标签时提升40.7%。在零样本跨域的MATH-500任务中,ORCA将节省比例从静态校准基线的24.8%提高到67.0%,同时保持较低的错误率。这些结果表明ORCA在提高推理效率和泛化能力方面具有显著优势。

🎯 应用场景

ORCA框架可应用于各种需要高可靠性和效率的语言模型推理场景,例如智能客服、自动代码生成、科学研究等。通过提高推理效率和泛化能力,ORCA可以降低计算成本,并提升用户体验。未来,ORCA有望成为一种通用的语言模型校准方法,促进语言模型在更多领域的应用。

📄 摘要(原文)

While test-time scaling has enabled large language models to solve highly difficult tasks, state-of-the-art results come at exorbitant compute costs. These inefficiencies can be attributed to the miscalibration of post-trained language models, and the lack of calibration in popular sampling techniques. Here, we present Online Reasoning Calibration (ORCA), a framework for calibrating the sampling process that draws upon conformal prediction and test-time training. Specifically, we introduce a meta-learning procedure that updates the calibration module for each input. This allows us to provide valid confidence estimates under distributional shift, e.g. in thought patterns that occur across different stages of reasoning, or in prompt distributions between model development and deployment. ORCA not only provides theoretical guarantees on conformal risks, but also empirically shows higher efficiency and generalization across different reasoning tasks. At risk level $δ=0.1$, ORCA improves Qwen2.5-32B efficiency on in-distribution tasks with savings up to 47.5% with supervised labels and 40.7% with self-consistency labels. Under zero-shot out-of-domain settings, it improves MATH-500 savings from 24.8% of the static calibration baseline to 67.0% while maintaining a low empirical error rate, and the same trend holds across model families and downstream benchmarks. Our code is publicly available at https://github.com/wzekai99/ORCA.