ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation

作者: Chenhui Deng, Yun-Da Tsai, Guan-Ting Liu, Zhongzhi Yu, Haoxing Ren

分类: cs.AR, cs.AI

发布日期: 2025-06-05 (更新: 2025-07-15)

备注: Accepted to MLCAD 2025

💡 一句话要点

提出ScaleRTL以解决RTL代码生成中的数据瓶颈问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 RTL代码生成 推理能力 测试时计算 数据集策划

📋 核心要点

现有方法在RTL代码生成中面临高质量训练数据稀缺的问题，限制了LLMs的有效性。
ScaleRTL通过策划长链推理轨迹和测试时计算扩展，解决了数据瓶颈和推理能力不足的问题。
实验结果表明，ScaleRTL在VerilogEval和RTLLM上达到了最先进的性能，分别超越18个基线模型18.4%和12.7%。

📝 摘要（中文）

近年来，大型语言模型（LLMs）的进步使其在软件编码基准测试中接近人类表现，但在RTL代码生成方面的有效性仍然有限，主要由于高质量训练数据的稀缺。尽管之前的研究对LLMs进行了微调以适应RTL任务，但未能从根本上克服数据瓶颈，并且由于缺乏推理能力，无法支持测试时的扩展。本文提出了ScaleRTL，这是首个针对RTL编码的推理LLM，能够同时扩展高质量推理数据和测试时计算。我们特别策划了一套多样化的长链推理轨迹，平均每个轨迹包含56K个标记，形成了一个包含35亿个标记的数据集，捕捉了丰富的RTL知识。对这一语料库进行微调后，ScaleRTL能够进行深度RTL推理，并通过一种新颖的测试时扩展策略进一步提升性能。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在RTL代码生成中的数据瓶颈问题。现有方法虽然经过微调，但仍无法有效利用高质量的推理数据，且缺乏在测试时的推理扩展能力。

核心思路：ScaleRTL的核心思路是通过策划丰富的推理数据集和引入测试时计算扩展，来提升模型在RTL编码任务中的推理能力。这样的设计使得模型能够在生成代码时进行深度推理和自我修正。

技术框架：ScaleRTL的整体架构包括数据集策划、模型微调和测试时推理扩展三个主要模块。首先，策划出包含丰富推理信息的数据集；其次，对通用推理模型进行微调；最后，通过迭代反思和自我修正来扩展推理过程。

关键创新：ScaleRTL的主要创新在于其推理能力的引入和测试时计算的扩展，这与现有方法的静态推理方式形成了鲜明对比。通过这种方式，ScaleRTL能够在生成代码时进行更深层次的推理和自我校正。

关键设计：在模型微调过程中，ScaleRTL使用了包含35亿个标记的多样化数据集，并设计了特定的损失函数以优化推理过程。此外，模型的网络结构经过调整，以适应长链推理的需求。通过这些设计，ScaleRTL在性能上显著提升。

📊 实验亮点

ScaleRTL在VerilogEval和RTLLM上实现了最先进的性能，分别超越18个竞争基线模型18.4%和12.7%。这些实验结果表明，ScaleRTL在处理复杂RTL编码任务时具有显著的优势，验证了其推理能力和测试时扩展策略的有效性。

🎯 应用场景

ScaleRTL的研究成果在多个领域具有广泛的应用潜力，尤其是在集成电路设计和硬件描述语言的自动生成方面。随着对高效RTL代码生成需求的增加，ScaleRTL能够为工程师提供更高效的工具，提升设计效率和准确性。未来，该技术可能会推动自动化设计工具的发展，进一步降低人力成本和错误率。

📄 摘要（原文）

Recent advances in large language models (LLMs) have enabled near-human performance on software coding benchmarks, but their effectiveness in RTL code generation remains limited due to the scarcity of high-quality training data. While prior efforts have fine-tuned LLMs for RTL tasks, they do not fundamentally overcome the data bottleneck and lack support for test-time scaling due to their non-reasoning nature. In this work, we introduce ScaleRTL, the first reasoning LLM for RTL coding that scales up both high-quality reasoning data and test-time compute. Specifically, we curate a diverse set of long chain-of-thought reasoning traces averaging 56K tokens each, resulting in a dataset of 3.5B tokens that captures rich RTL knowledge. Fine-tuning a general-purpose reasoning model on this corpus yields ScaleRTL that is capable of deep RTL reasoning. Subsequently, we further enhance the performance of ScaleRTL through a novel test-time scaling strategy that extends the reasoning process via iteratively reflecting on and self-correcting previous reasoning steps. Experimental results show that ScaleRTL achieves state-of-the-art performance on VerilogEval and RTLLM, outperforming 18 competitive baselines by up to 18.4% on VerilogEval and 12.7% on RTLLM.

ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册