Tool Verification for Test-Time Reinforcement Learning
作者: Ruotong Liao, Nikolai Röhrich, Xiaohan Wang, Yuhui Zhang, Yasaman Samadzadeh, Volker Tresp, Serena Yeung-Levy
分类: cs.AI, cs.CL
发布日期: 2026-03-02
备注: 12 pages, 11 figures
💡 一句话要点
T^3RL:通过工具验证稳定测试时强化学习,解决模式崩溃问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 测试时强化学习 工具验证 自进化模型 伪标签 模式崩溃 奖励信号 在线学习
📋 核心要点
- TTRL易受虚假共识影响,导致奖励偏差和模式崩溃,尤其是在复杂推理任务中。
- T^3RL通过引入工具验证机制,利用外部工具的输出来验证rollout,提升奖励估计的可靠性。
- 实验表明,T^3RL在数学问题上显著优于TTRL,尤其是在难题上提升更为明显,验证了其有效性。
📝 摘要(中文)
测试时强化学习(TTRL)已成为一种有前景的自进化大型推理模型(LRM)范式,它可以通过多数投票产生的自诱导奖励,实现在未标记测试输入上的在线适应。然而,虚假但高频的未验证共识可能成为有偏差且被强化的奖励信号,导致不正确的模式崩溃。我们提出了T^3RL(Tool-Verification for Test-Time Reinforcement Learning),它将测试时工具验证引入奖励估计。具体而言,验证器使用外部工具作为证据(例如,来自代码执行),以在验证感知投票中提升已验证rollout的权重,从而产生更可靠的伪标签用于训练。在各种数学难度(MATH-500、AMC和AIME 2024)和不同的骨干网络类型上,T^3RL显著优于TTRL,并且在更难的问题上获得了更大的收益。更广泛地说,T^3RL可以被视为经过验证的在线数据合成,突出了测试时工具验证作为稳定自进化的关键机制。
🔬 方法详解
问题定义:论文旨在解决测试时强化学习(TTRL)中,由于虚假共识导致奖励信号偏差,进而引发模型模式崩溃的问题。现有TTRL方法依赖于多数投票来生成伪标签,但当存在大量错误但一致的答案时,模型会被误导,导致性能下降。尤其是在需要复杂推理的任务中,这个问题更为突出。
核心思路:论文的核心思路是通过引入外部工具验证机制,来提高奖励信号的可靠性。具体来说,利用外部工具(如代码解释器、计算器等)对模型的输出进行验证,只有通过验证的rollout才能获得更高的权重,从而减少虚假共识的影响。这样可以引导模型学习更正确的推理路径。
技术框架:T^3RL的整体框架包括以下几个主要模块:1) 模型生成多个rollout;2) 使用外部工具对每个rollout进行验证;3) 基于验证结果进行加权投票,生成伪标签;4) 使用伪标签训练模型。关键在于验证模块,它利用外部工具的输出来判断rollout的正确性,并据此调整投票权重。
关键创新:最重要的技术创新点是测试时工具验证机制。与传统的TTRL方法相比,T^3RL不再仅仅依赖于模型自身的输出进行投票,而是引入了外部知识来源(即工具)来辅助判断。这种方法可以有效地减少虚假共识的影响,提高奖励信号的准确性。
关键设计:T^3RL的关键设计在于如何有效地利用外部工具进行验证。论文中,验证器根据工具的输出结果,对rollout进行二元分类(验证通过/未通过)。然后,在投票过程中,验证通过的rollout会被赋予更高的权重。具体的权重计算方式可以根据不同的任务和工具进行调整。此外,论文还考虑了工具本身可能出错的情况,并设计了相应的策略来减轻其影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,T^3RL在MATH-500、AMC和AIME 2024等数学问题数据集上显著优于TTRL。例如,在更具挑战性的AIME 2024数据集上,T^3RL的性能提升尤为明显,表明其在解决复杂推理问题方面的优势。此外,实验还验证了T^3RL在不同骨干网络类型上的有效性,证明了其通用性。
🎯 应用场景
T^3RL方法具有广泛的应用前景,可以应用于各种需要复杂推理和决策的任务中,例如数学问题求解、代码生成、自然语言推理等。该方法通过引入外部工具验证,提高了模型的鲁棒性和可靠性,使其能够更好地适应未知的测试环境。未来,可以将T^3RL应用于机器人控制、自动驾驶等领域,提升系统的智能化水平。
📄 摘要(原文)
Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.