LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding

作者: Yuxuan Hu, Jihao Liu, Ke Wang, Jinliang Zhen, Weikang Shi, Manyuan Zhang, Qi Dou, Rui Liu, Aojun Zhou, Hongsheng Li

分类: cs.CL, cs.AI

发布日期: 2025-09-06 (更新: 2025-09-25)

备注: EMNLP 2025 Main

🔗 代码/项目: GITHUB

💡 一句话要点

LM-Searcher：利用LLM和统一数值编码实现跨领域神经架构搜索

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 大型语言模型 跨领域学习 数值编码 指令调优

📋 核心要点

现有基于LLM的NAS方法依赖于提示工程和领域特定调整，限制了其在不同任务中的实用性和可扩展性。
LM-Searcher通过NCode统一数值编码，将NAS问题转化为排序任务，并利用指令调优训练LLM选择高性能架构。
实验表明，LM-Searcher在图像分类、分割和生成等任务中表现出色，验证了其跨领域泛化能力。

📝 摘要（中文）

本文提出了一种名为LM-Searcher的新框架，该框架利用大型语言模型（LLM）进行跨领域神经架构优化，无需大量的领域特定调整。该方法的核心是NCode，一种用于神经架构的通用数值字符串表示，它实现了跨领域的架构编码和搜索。此外，本文将神经架构搜索（NAS）问题重新定义为一个排序任务，通过使用基于剪枝的子空间采样策略生成的指令调优样本，训练LLM从候选池中选择高性能的架构。本文构建了一个包含广泛架构-性能对的数据集，以促进鲁棒和可迁移的学习。综合实验表明，LM-Searcher在领域内（例如，用于图像分类的CNN）和领域外（例如，用于分割和生成的LoRA配置）任务中均取得了具有竞争力的性能，为基于LLM的灵活和可泛化的架构搜索建立了一种新的范例。

🔬 方法详解

问题定义：现有的基于LLM的神经架构搜索方法通常需要大量的prompt工程和领域特定的调优，这限制了它们在不同任务和领域中的泛化能力。因此，需要一种能够跨领域进行神经架构搜索，并且不需要大量领域特定知识的方法。

核心思路：LM-Searcher的核心思路是将神经架构搜索问题转化为一个排序问题，并利用大型语言模型（LLM）来学习架构的性能排序。通过一种通用的数值编码方式（NCode）来表示不同的神经架构，使得LLM能够理解和比较不同架构的优劣。同时，利用指令调优的方式来训练LLM，使其能够根据给定的任务和数据集，选择出高性能的架构。

技术框架：LM-Searcher的整体框架主要包含以下几个模块：1）NCode编码器：将不同的神经架构编码成统一的数值字符串表示。2）子空间采样器：基于剪枝策略，从整个架构空间中采样出具有代表性的子空间。3）指令调优数据集生成器：根据采样出的子空间，生成包含架构-性能对的指令调优数据集。4）LLM排序器：利用指令调优数据集训练LLM，使其能够对不同的架构进行排序。5）架构搜索器：利用训练好的LLM，从候选架构池中选择出高性能的架构。

关键创新：LM-Searcher的关键创新在于以下几点：1）NCode通用数值编码：提出了一种通用的数值编码方式，能够表示不同类型的神经架构，实现了跨领域的架构表示。2）基于剪枝的子空间采样：提出了一种基于剪枝策略的子空间采样方法，能够有效地减少搜索空间，提高搜索效率。3）指令调优的LLM排序器：利用指令调优的方式训练LLM，使其能够更好地理解和学习架构的性能排序。

关键设计：NCode编码的关键设计在于将架构的各个组件（如卷积层、池化层、激活函数等）映射到数值空间，并使用字符串的形式进行表示。子空间采样器使用L1范数剪枝来选择重要的连接，从而减少搜索空间。指令调优数据集包含架构的NCode表示、任务描述和性能指标。LLM排序器使用交叉熵损失函数进行训练，目标是预测架构的性能排名。

📊 实验亮点

实验结果表明，LM-Searcher在图像分类任务上取得了与传统NAS方法相当的性能，并且在LoRA配置搜索任务上，相比于随机搜索和贝叶斯优化等基线方法，取得了显著的性能提升。例如，在图像分割任务上，LM-Searcher搜索到的LoRA配置相比于随机搜索，IoU提升了5%以上。这些结果验证了LM-Searcher的有效性和跨领域泛化能力。

🎯 应用场景

LM-Searcher具有广泛的应用前景，可应用于图像分类、目标检测、语义分割、自然语言处理等多个领域。它能够自动化地搜索高性能的神经架构，降低了人工设计架构的成本和难度。此外，LM-Searcher的跨领域泛化能力使其能够应用于新的任务和领域，加速了AI技术的创新和发展。未来，该方法有望应用于自动驾驶、医疗诊断等领域。

📄 摘要（原文）

Recent progress in Large Language Models (LLMs) has opened new avenues for solving complex optimization problems, including Neural Architecture Search (NAS). However, existing LLM-driven NAS approaches rely heavily on prompt engineering and domain-specific tuning, limiting their practicality and scalability across diverse tasks. In this work, we propose LM-Searcher, a novel framework that leverages LLMs for cross-domain neural architecture optimization without the need for extensive domain-specific adaptation. Central to our approach is NCode, a universal numerical string representation for neural architectures, which enables cross-domain architecture encoding and search. We also reformulate the NAS problem as a ranking task, training LLMs to select high-performing architectures from candidate pools using instruction-tuning samples derived from a novel pruning-based subspace sampling strategy. Our curated dataset, encompassing a wide range of architecture-performance pairs, encourages robust and transferable learning. Comprehensive experiments demonstrate that LM-Searcher achieves competitive performance in both in-domain (e.g., CNNs for image classification) and out-of-domain (e.g., LoRA configurations for segmentation and generation) tasks, establishing a new paradigm for flexible and generalizable LLM-based architecture search. The datasets and models will be released at https://github.com/Ashone3/LM-Searcher.

LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册