Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning

📄 arXiv: 2506.04611v1 📥 PDF

作者: Ho-Lam Chung, Teng-Yun Hsiao, Hsiao-Ying Huang, Chunerh Cho, Jian-Ren Lin, Zhang Ziwei, Yun-Nung Chen

分类: cs.CL

发布日期: 2025-06-05

备注: emnlp 2025 submission


💡 一句话要点

提出ADAPT方法以解决推理多样性不足问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 测试时缩放 大型语言模型 推理优化 多样性感知 前缀微调 数学推理 生成多样性

📋 核心要点

  1. 现有的推理优化模型在生成输出时多样性不足,限制了测试时缩放的效果。
  2. 本文提出ADAPT方法,通过多样性感知的数据策略进行前缀微调,旨在提高推理输出的多样性。
  3. 实验结果显示,ADAPT在数学推理任务中以八倍的计算量达到了80%的准确率,显著优于强基线。

📝 摘要(中文)

测试时缩放(TTS)通过在推理过程中分配额外计算资源来提高大型语言模型(LLMs)的推理性能。本文对TTS方法进行了系统性调查,并将其分为基于采样、基于搜索和轨迹优化策略。研究发现,推理优化模型通常产生的输出多样性较低,限制了TTS的有效性。为此,提出了ADAPT(多样性感知前缀微调),这是一种轻量级方法,采用以多样性为中心的数据策略进行前缀微调。实验结果表明,ADAPT在数学推理任务中以八倍更少的计算量达到了80%的准确率,突显了生成多样性在最大化TTS有效性中的重要作用。

🔬 方法详解

问题定义:本文旨在解决现有推理优化模型在测试时缩放(TTS)中输出多样性不足的问题。现有方法往往导致生成结果的单一性,限制了其在复杂推理任务中的有效性。

核心思路:ADAPT方法的核心思想是通过多样性感知的数据策略进行前缀微调,以增强生成结果的多样性,从而提升TTS的整体效果。这样的设计旨在平衡推理准确性与输出多样性之间的关系。

技术框架:ADAPT的整体架构包括数据准备、前缀微调和推理阶段。首先,通过多样性感知的数据策略准备训练数据,然后进行前缀微调,最后在推理阶段应用优化后的模型进行推理。

关键创新:ADAPT的主要创新在于引入了多样性感知的数据策略,使得前缀微调不仅关注准确性,还关注生成结果的多样性。这与现有方法的单一优化目标形成了鲜明对比。

关键设计:在ADAPT中,关键的参数设置包括前缀长度和多样性损失函数的权重。前缀长度的选择影响模型的上下文理解能力,而多样性损失函数则确保生成结果的多样性。

📊 实验亮点

实验结果显示,ADAPT在数学推理任务中以八倍的计算量达到了80%的准确率,相较于强基线显著提升了推理效率和准确性,证明了多样性在推理优化中的关键作用。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、教育技术和智能问答系统等。通过提高推理过程中的输出多样性,ADAPT方法可以在复杂任务中提供更丰富的答案,提升用户体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

Test-Time Scaling (TTS) improves the reasoning performance of Large Language Models (LLMs) by allocating additional compute during inference. We conduct a structured survey of TTS methods and categorize them into sampling-based, search-based, and trajectory optimization strategies. We observe that reasoning-optimized models often produce less diverse outputs, which limits TTS effectiveness. To address this, we propose ADAPT (A Diversity Aware Prefix fine-Tuning), a lightweight method that applies prefix tuning with a diversity-focused data strategy. Experiments on mathematical reasoning tasks show that ADAPT reaches 80% accuracy using eight times less compute than strong baselines. Our findings highlight the essential role of generative diversity in maximizing TTS effectiveness.