SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code

📄 arXiv: 2506.05692v3 📥 PDF

作者: Xinghang Li, Jingzhe Ding, Chao Peng, Bing Zhao, Xiang Gao, Hongwan Gao, Xinchen Gu

分类: cs.CR, cs.AI

发布日期: 2025-06-06 (更新: 2025-06-20)


💡 一句话要点

提出SafeGenBench以解决LLM生成代码的安全漏洞检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 安全漏洞检测 大型语言模型 代码生成 静态应用安全测试 基准框架 自动评估 软件开发 安全性评估

📋 核心要点

  1. 现有研究未能充分考虑LLM生成代码的安全风险,导致安全漏洞的潜在威胁。
  2. 提出SafeGenBench基准框架,结合静态应用安全测试和LLM判断,自动评估生成代码的安全性。
  3. 实证评估显示,当前LLM在生成无漏洞代码方面存在显著不足,揭示了未来改进的方向。

📝 摘要(中文)

大型语言模型(LLMs)的代码生成能力已成为评估其整体性能的重要维度。然而,先前的研究在很大程度上忽视了生成代码中固有的安全风险。本文介绍了SafeGenBench,一个专门设计用于评估LLM生成代码安全性的基准框架。该数据集涵盖了多种常见软件开发场景和漏洞类型。基于此基准,我们开发了一个自动评估框架,结合静态应用安全测试(SAST)和基于LLM的判断,评估模型生成代码中的安全漏洞。通过对最先进的LLM在SafeGenBench上的实证评估,我们揭示了它们在生成无漏洞代码方面的显著不足。我们的发现突显了紧迫的挑战,并为未来LLM安全代码生成性能的提升提供了可行的见解。

🔬 方法详解

问题定义:本文旨在解决大型语言模型生成代码中的安全漏洞检测问题。现有方法未能有效识别和评估生成代码的安全性,导致潜在的安全风险未被重视。

核心思路:论文提出SafeGenBench基准框架,专注于评估LLM生成代码的安全性,结合静态应用安全测试(SAST)和LLM判断,提供自动化的漏洞检测能力。

技术框架:整体架构包括数据集构建、静态分析模块和LLM评估模块。数据集涵盖多种软件开发场景和漏洞类型,静态分析模块负责识别潜在漏洞,LLM评估模块则通过模型生成的代码进行判断。

关键创新:SafeGenBench是首个专门针对LLM生成代码安全性的基准框架,填补了现有研究的空白。与传统方法相比,它提供了更全面的评估手段,能够更好地识别安全漏洞。

关键设计:在设计中,数据集包含多种常见漏洞类型,静态分析使用了先进的安全检测技术,LLM评估模块则采用了最新的模型架构,以确保评估的准确性和全面性。

📊 实验亮点

实验结果表明,当前主流的LLM在生成无漏洞代码方面存在显著不足,具体表现为在SafeGenBench上评估时,平均漏洞检测率低于30%。这一发现强调了在LLM代码生成中加强安全性的重要性,并为未来的研究提供了明确的改进方向。

🎯 应用场景

该研究的潜在应用领域包括软件开发、代码审计和安全性评估等。通过提供一个系统化的安全评估框架,开发者可以在代码生成过程中及时识别和修复安全漏洞,从而提升软件的整体安全性。未来,该框架还可能推动LLM在安全代码生成方面的进一步研究与应用。

📄 摘要(原文)

The code generation capabilities of large language models(LLMs) have emerged as a critical dimension in evaluating their overall performance. However, prior research has largely overlooked the security risks inherent in the generated code. In this work, we introduce SafeGenBench, a benchmark specifically designed to assess the security of LLM-generated code. The dataset encompasses a wide range of common software development scenarios and vulnerability types. Building upon this benchmark, we develop an automatic evaluation framework that leverages both static application security testing(SAST) and LLM-based judging to assess the presence of security vulnerabilities in model-generated code. Through the empirical evaluation of state-of-the-art LLMs on SafeGenBench, we reveal notable deficiencies in their ability to produce vulnerability-free code. Our findings highlight pressing challenges and offer actionable insights for future advancements in the secure code generation performance of LLMs. The data and code will be released soon.