DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

📄 arXiv: 2603.05357v1 📥 PDF

作者: Mohammad Mahdi Moradi, Sudhir Mudur

分类: cs.CL

发布日期: 2026-03-05


💡 一句话要点

提出DiSCTT,通过共识引导的自课程学习实现推理中高效的测试时自适应

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 测试时自适应 自课程学习 共识引导 强化学习 推理 语言模型 难度感知

📋 核心要点

  1. 现有测试时自适应方法在处理异构推理问题时,采用统一优化目标导致效率低下或不稳定。
  2. DiSCTT通过共识引导的自课程学习,根据实例难度动态分配优化策略,提升自适应效率。
  3. 实验表明,DiSCTT在推理基准测试中优于现有方法,并降低了计算成本和训练时间。

📝 摘要(中文)

测试时自适应为提升大型语言模型在推理任务中的性能提供了一条有希望的途径,无需额外的监督。然而,现有方法通常对所有输入应用统一的优化目标,导致在异构推理问题上的自适应效率低下或不稳定。我们提出了DiSCTT,一个难度感知、共识引导的自课程框架,它基于从采样推理轨迹的一致性中估计的实例级认知不确定性,动态地分配测试时优化策略。对于具有高共识的输入,通过使用多数同意的解决方案作为伪标签进行监督微调来巩固;而对于低共识的输入,则通过强化学习进行优化,并采用共识正则化目标,鼓励在相关性约束下的多样性。在广泛的数学和通用推理基准测试中,DiSCTT始终优于强大的测试时自适应基线,以更低的方差和显著降低的计算和挂钟训练时间实现了更高的准确性。这些结果表明,显式地考虑实例难度和不确定性能够为推理模型提供更稳定、高效和有效的测试时自适应。

🔬 方法详解

问题定义:现有测试时自适应方法在推理任务中面临挑战,它们对所有输入采用相同的优化策略,忽略了不同推理问题的难度差异。这种统一处理方式导致在简单问题上过度优化,而在复杂问题上优化不足,最终影响整体性能和效率。现有方法缺乏对实例难度的感知能力,无法根据难度自适应地调整优化策略,这是其主要痛点。

核心思路:DiSCTT的核心思路是引入难度感知和共识引导的自课程学习机制。它首先通过采样多个推理轨迹来估计实例级的认知不确定性,即共识程度。然后,根据共识程度将输入分为高共识和低共识两类。对于高共识的简单问题,采用监督微调加速收敛;对于低共识的复杂问题,则采用强化学习探索更优解,并使用共识正则化鼓励多样性。

技术框架:DiSCTT框架包含以下主要阶段:1) 推理轨迹采样:对每个输入,使用语言模型生成多个推理轨迹。2) 共识估计:计算不同轨迹之间的共识程度,作为实例难度的指标。3) 自课程学习:根据共识程度,将输入分配到不同的优化策略。4) 监督微调:对于高共识的输入,使用多数同意的解决方案作为伪标签进行监督微调。5) 强化学习:对于低共识的输入,使用强化学习优化,并采用共识正则化目标。

关键创新:DiSCTT的关键创新在于:1) 难度感知的自适应优化:根据实例难度动态调整优化策略,避免了统一优化带来的效率问题。2) 共识引导的自课程学习:利用推理轨迹的共识程度作为实例难度的指标,指导自课程学习过程。3) 共识正则化的强化学习:在强化学习中引入共识正则化,鼓励模型探索多样化的解决方案,同时保持与已有共识的相关性。

关键设计:在共识估计方面,论文采用了基于编辑距离的共识度量方法。在强化学习中,奖励函数包括两部分:一是标准的回报奖励,二是共识正则化项,用于衡量生成轨迹与已有共识的相似度。共识正则化项的具体形式为负的编辑距离。此外,论文还使用了温度系数来控制共识正则化项的强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiSCTT在多个数学和通用推理基准测试中取得了显著的性能提升。例如,在某些数据集上,DiSCTT的准确率比现有测试时自适应方法提高了5%以上,同时计算时间和训练时间显著降低。此外,DiSCTT还表现出更低的方差,表明其具有更强的稳定性和可靠性。

🎯 应用场景

DiSCTT具有广泛的应用前景,可用于提升大型语言模型在各种推理任务中的性能,例如数学问题求解、常识推理、代码生成等。该方法能够提高模型在实际应用中的鲁棒性和泛化能力,降低对大量标注数据的依赖,并加速模型的部署和迭代。

📄 摘要(原文)

Test-time adaptation offers a promising avenue for improving reasoning performance in large language models without additional supervision, but existing approaches often apply a uniform optimization objective across all inputs, leading to inefficient or unstable adaptation on heterogeneous reasoning problems. We propose DiSCTT, a difficulty-aware, consensus-guided self-curriculum framework that dynamically allocates test-time optimization strategies based on instance-level epistemic uncertainty estimated from agreement among sampled reasoning trajectories. Inputs with high consensus are consolidated via supervised fine-tuning using majority-agreed solutions as pseudo-labels, while low-consensus inputs are optimized via reinforcement learning with a consensus-regularized objective that encourages diversity under relevance constraints. Across a broad suite of mathematical and general reasoning benchmarks, DiSCTT consistently outperforms strong test-time adaptation baselines, achieving higher accuracy with reduced variance and substantially lower computation and wall-clock training times. These results demonstrate that explicitly accounting for instance difficulty and uncertainty enables more stable, efficient, and effective test-time adaptation for reasoning models.