Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning

作者: Ho-Lam Chung, Teng-Yun Hsiao, Hsiao-Ying Huang, Chunerh Cho, Jian-Ren Lin, Zhang Ziwei, Yun-Nung Chen

分类: cs.CL

发布日期: 2025-06-05

备注: emnlp 2025 submission

💡 一句话要点

提出ADAPT方法以解决推理多样性不足问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 测试时缩放 大型语言模型 推理优化 多样性感知 前缀微调 数学推理 生成多样性

📋 核心要点

现有的推理优化模型在生成输出时多样性不足，限制了测试时缩放的效果。
本文提出ADAPT方法，通过多样性感知的数据策略进行前缀微调，旨在提高推理输出的多样性。
实验结果显示，ADAPT在数学推理任务中以八倍的计算量达到了80%的准确率，显著优于强基线。

📝 摘要（中文）

测试时缩放（TTS）通过在推理过程中分配额外计算资源来提高大型语言模型（LLMs）的推理性能。本文对TTS方法进行了系统性调查，并将其分为基于采样、基于搜索和轨迹优化策略。研究发现，推理优化模型通常产生的输出多样性较低，限制了TTS的有效性。为此，提出了ADAPT（多样性感知前缀微调），这是一种轻量级方法，采用以多样性为中心的数据策略进行前缀微调。实验结果表明，ADAPT在数学推理任务中以八倍更少的计算量达到了80%的准确率，突显了生成多样性在最大化TTS有效性中的重要作用。

🔬 方法详解

问题定义：本文旨在解决现有推理优化模型在测试时缩放（TTS）中输出多样性不足的问题。现有方法往往导致生成结果的单一性，限制了其在复杂推理任务中的有效性。

核心思路：ADAPT方法的核心思想是通过多样性感知的数据策略进行前缀微调，以增强生成结果的多样性，从而提升TTS的整体效果。这样的设计旨在平衡推理准确性与输出多样性之间的关系。

技术框架：ADAPT的整体架构包括数据准备、前缀微调和推理阶段。首先，通过多样性感知的数据策略准备训练数据，然后进行前缀微调，最后在推理阶段应用优化后的模型进行推理。

关键创新：ADAPT的主要创新在于引入了多样性感知的数据策略，使得前缀微调不仅关注准确性，还关注生成结果的多样性。这与现有方法的单一优化目标形成了鲜明对比。

关键设计：在ADAPT中，关键的参数设置包括前缀长度和多样性损失函数的权重。前缀长度的选择影响模型的上下文理解能力，而多样性损失函数则确保生成结果的多样性。

📊 实验亮点

实验结果显示，ADAPT在数学推理任务中以八倍的计算量达到了80%的准确率，相较于强基线显著提升了推理效率和准确性，证明了多样性在推理优化中的关键作用。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、教育技术和智能问答系统等。通过提高推理过程中的输出多样性，ADAPT方法可以在复杂任务中提供更丰富的答案，提升用户体验，具有重要的实际价值和未来影响。

📄 摘要（原文）

Test-Time Scaling (TTS) improves the reasoning performance of Large Language Models (LLMs) by allocating additional compute during inference. We conduct a structured survey of TTS methods and categorize them into sampling-based, search-based, and trajectory optimization strategies. We observe that reasoning-optimized models often produce less diverse outputs, which limits TTS effectiveness. To address this, we propose ADAPT (A Diversity Aware Prefix fine-Tuning), a lightweight method that applies prefix tuning with a diversity-focused data strategy. Experiments on mathematical reasoning tasks show that ADAPT reaches 80% accuracy using eight times less compute than strong baselines. Our findings highlight the essential role of generative diversity in maximizing TTS effectiveness.

Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册