Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning

📄 arXiv: 2509.15561v3 📥 PDF

作者: Om Naphade, Saksham Bansal, Parikshit Pareek

分类: cs.LG, cs.CL

发布日期: 2025-09-19 (更新: 2025-09-25)


💡 一句话要点

提出专家块框架以优化小型LLM的超参数调优

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超参数调优 小型语言模型 专家块框架 轨迹上下文摘要器 机器学习 计算效率 模型优化

📋 核心要点

  1. 现有的超参数调优方法在处理大型模型时计算成本高且过程不透明,限制了其应用。
  2. 本文提出的专家块框架结合轨迹上下文摘要器(TCS),使小型LLM能够有效分析训练过程中的优化进展。
  3. 实验结果表明,基于TCS的HPT管道在多个任务上与GPT-4的性能相近,展示了小型模型的潜力。

📝 摘要(中文)

超参数调优(HPT)是机器学习管道中必不可少的一步,但在大型模型中变得计算成本高且不透明。近期研究探索了大型语言模型(LLMs)在HPT中的应用,但大多数依赖于超过1000亿参数的模型。本文提出了一种基于小型LLM的专家块框架用于HPT,核心是轨迹上下文摘要器(TCS),该确定性模块将原始训练轨迹转化为结构化上下文,使小型LLM能够以与大型模型相当的可靠性分析优化进展。使用两个本地运行的LLM(phi4:reasoning14B和qwen2.5-coder:32B)和10次试验预算,基于TCS的HPT管道在六个多样化任务中实现了平均性能与GPT-4相差约0.9个百分点。

🔬 方法详解

问题定义:本文旨在解决超参数调优在大型模型中计算成本高和不透明的问题。现有方法通常依赖于参数量巨大的模型,导致资源消耗和效率低下。

核心思路:提出专家块框架,利用轨迹上下文摘要器(TCS)将训练轨迹转化为结构化上下文,从而使小型LLM能够可靠地分析优化进展。这样的设计旨在降低计算成本,同时保持性能。

技术框架:整体架构包括两个主要模块:轨迹上下文摘要器(TCS)和小型LLM。TCS负责处理原始训练数据并生成结构化上下文,小型LLM则基于这些上下文进行超参数调优。

关键创新:最重要的技术创新在于引入TCS,使得小型LLM在HPT中能够达到与大型模型相当的性能。这一方法显著降低了对计算资源的需求。

关键设计:在参数设置上,使用了phi4:reasoning14B和qwen2.5-coder:32B两个小型LLM,采用10次试验预算进行评估。损失函数和网络结构的具体细节在论文中进行了详细描述。通过这种设计,确保了模型在多样化任务中的有效性。

📊 实验亮点

实验结果显示,基于TCS的HPT管道在六个不同任务上实现了与GPT-4相差约0.9个百分点的平均性能。这一结果表明,小型LLM在超参数调优中的有效性,展示了其在实际应用中的潜力。

🎯 应用场景

该研究的潜在应用领域包括机器学习模型的超参数调优,尤其是在资源受限的环境中。通过使用小型LLM和专家块框架,研究者和工程师可以在保持高效性能的同时,降低计算成本。这一方法的成功应用可能会推动更多小型模型在实际场景中的使用,提升机器学习的可及性和效率。

📄 摘要(原文)

Hyper-parameter Tuning (HPT) is a necessary step in machine learning (ML) pipelines but becomes computationally expensive and opaque with larger models. Recently, Large Language Models (LLMs) have been explored for HPT, yet most rely on models exceeding 100 billion parameters. We propose an Expert Block Framework for HPT using Small LLMs. At its core is the Trajectory Context Summarizer (TCS), a deterministic block that transforms raw training trajectories into structured context, enabling small LLMs to analyze optimization progress with reliability comparable to larger models. Using two locally-run LLMs (phi4:reasoning14B and qwen2.5-coder:32B) and a 10-trial budget, our TCS-enabled HPT pipeline achieves average performance within ~0.9 percentage points of GPT-4 across six diverse tasks.