Tool Verification for Test-Time Reinforcement Learning

作者: Ruotong Liao, Nikolai Röhrich, Xiaohan Wang, Yuhui Zhang, Yasaman Samadzadeh, Volker Tresp, Serena Yeung-Levy

分类: cs.AI, cs.CL

发布日期: 2026-03-02

备注: 12 pages, 11 figures

💡 一句话要点

T^3RL：通过工具验证稳定测试时强化学习，解决模式崩溃问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 测试时强化学习 工具验证 自进化模型 伪标签 模式崩溃 奖励信号 在线学习

📋 核心要点

TTRL易受虚假共识影响，导致奖励偏差和模式崩溃，尤其是在复杂推理任务中。
T^3RL通过引入工具验证机制，利用外部工具的输出来验证rollout，提升奖励估计的可靠性。
实验表明，T^3RL在数学问题上显著优于TTRL，尤其是在难题上提升更为明显，验证了其有效性。

📝 摘要（中文）

测试时强化学习(TTRL)已成为一种有前景的自进化大型推理模型(LRM)范式，它可以通过多数投票产生的自诱导奖励，实现在未标记测试输入上的在线适应。然而，虚假但高频的未验证共识可能成为有偏差且被强化的奖励信号，导致不正确的模式崩溃。我们提出了T^3RL（Tool-Verification for Test-Time Reinforcement Learning），它将测试时工具验证引入奖励估计。具体而言，验证器使用外部工具作为证据（例如，来自代码执行），以在验证感知投票中提升已验证rollout的权重，从而产生更可靠的伪标签用于训练。在各种数学难度（MATH-500、AMC和AIME 2024）和不同的骨干网络类型上，T^3RL显著优于TTRL，并且在更难的问题上获得了更大的收益。更广泛地说，T^3RL可以被视为经过验证的在线数据合成，突出了测试时工具验证作为稳定自进化的关键机制。

🔬 方法详解

问题定义：论文旨在解决测试时强化学习（TTRL）中，由于虚假共识导致奖励信号偏差，进而引发模型模式崩溃的问题。现有TTRL方法依赖于多数投票来生成伪标签，但当存在大量错误但一致的答案时，模型会被误导，导致性能下降。尤其是在需要复杂推理的任务中，这个问题更为突出。

核心思路：论文的核心思路是通过引入外部工具验证机制，来提高奖励信号的可靠性。具体来说，利用外部工具（如代码解释器、计算器等）对模型的输出进行验证，只有通过验证的rollout才能获得更高的权重，从而减少虚假共识的影响。这样可以引导模型学习更正确的推理路径。

技术框架：T^3RL的整体框架包括以下几个主要模块：1) 模型生成多个rollout；2) 使用外部工具对每个rollout进行验证；3) 基于验证结果进行加权投票，生成伪标签；4) 使用伪标签训练模型。关键在于验证模块，它利用外部工具的输出来判断rollout的正确性，并据此调整投票权重。

关键创新：最重要的技术创新点是测试时工具验证机制。与传统的TTRL方法相比，T^3RL不再仅仅依赖于模型自身的输出进行投票，而是引入了外部知识来源（即工具）来辅助判断。这种方法可以有效地减少虚假共识的影响，提高奖励信号的准确性。

关键设计：T^3RL的关键设计在于如何有效地利用外部工具进行验证。论文中，验证器根据工具的输出结果，对rollout进行二元分类（验证通过/未通过）。然后，在投票过程中，验证通过的rollout会被赋予更高的权重。具体的权重计算方式可以根据不同的任务和工具进行调整。此外，论文还考虑了工具本身可能出错的情况，并设计了相应的策略来减轻其影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，T^3RL在MATH-500、AMC和AIME 2024等数学问题数据集上显著优于TTRL。例如，在更具挑战性的AIME 2024数据集上，T^3RL的性能提升尤为明显，表明其在解决复杂推理问题方面的优势。此外，实验还验证了T^3RL在不同骨干网络类型上的有效性，证明了其通用性。

🎯 应用场景

T^3RL方法具有广泛的应用前景，可以应用于各种需要复杂推理和决策的任务中，例如数学问题求解、代码生成、自然语言推理等。该方法通过引入外部工具验证，提高了模型的鲁棒性和可靠性，使其能够更好地适应未知的测试环境。未来，可以将T^3RL应用于机器人控制、自动驾驶等领域，提升系统的智能化水平。

📄 摘要（原文）

Test-time reinforcement learning (TTRL) has emerged as a promising paradigm for self-evolving large reasoning models (LRMs), enabling online adaptation on unlabeled test inputs via self-induced rewards through majority voting. However, a spurious yet high-frequency unverified consensus can become a biased and reinforced reward signal, leading to incorrect mode collapse. We address this failure mode with T^3RL (Tool-Verification for Test-Time Reinforcement Learning), which introduces test-time tool verification into reward estimation. Concretely, a verifier uses an external tool as evidence (e.g., from code execution) to upweight verified rollouts in a verification-aware voting, producing more reliable pseudo-labels for training. Across various math difficulties (MATH-500, AMC, and AIME 2024) and diverse backbone types, T^3RL significantly improves over TTRL, with larger gains on harder problems. More broadly, T^3RL can be viewed as verified online data synthesis, highlighting test-time tool verification as a key mechanism for stabilizing self-evolution.

Tool Verification for Test-Time Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理