SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code

作者: Xinghang Li, Jingzhe Ding, Chao Peng, Bing Zhao, Xiang Gao, Hongwan Gao, Xinchen Gu

分类: cs.CR, cs.AI

发布日期: 2025-06-06 (更新: 2025-06-20)

💡 一句话要点

提出SafeGenBench以解决LLM生成代码的安全漏洞检测问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 安全漏洞检测 大型语言模型 代码生成 静态应用安全测试 基准框架 自动评估 软件开发 安全性评估

📋 核心要点

现有研究未能充分考虑LLM生成代码的安全风险，导致安全漏洞的潜在威胁。
提出SafeGenBench基准框架，结合静态应用安全测试和LLM判断，自动评估生成代码的安全性。
实证评估显示，当前LLM在生成无漏洞代码方面存在显著不足，揭示了未来改进的方向。

📝 摘要（中文）

大型语言模型（LLMs）的代码生成能力已成为评估其整体性能的重要维度。然而，先前的研究在很大程度上忽视了生成代码中固有的安全风险。本文介绍了SafeGenBench，一个专门设计用于评估LLM生成代码安全性的基准框架。该数据集涵盖了多种常见软件开发场景和漏洞类型。基于此基准，我们开发了一个自动评估框架，结合静态应用安全测试（SAST）和基于LLM的判断，评估模型生成代码中的安全漏洞。通过对最先进的LLM在SafeGenBench上的实证评估，我们揭示了它们在生成无漏洞代码方面的显著不足。我们的发现突显了紧迫的挑战，并为未来LLM安全代码生成性能的提升提供了可行的见解。

🔬 方法详解

问题定义：本文旨在解决大型语言模型生成代码中的安全漏洞检测问题。现有方法未能有效识别和评估生成代码的安全性，导致潜在的安全风险未被重视。

核心思路：论文提出SafeGenBench基准框架，专注于评估LLM生成代码的安全性，结合静态应用安全测试（SAST）和LLM判断，提供自动化的漏洞检测能力。

技术框架：整体架构包括数据集构建、静态分析模块和LLM评估模块。数据集涵盖多种软件开发场景和漏洞类型，静态分析模块负责识别潜在漏洞，LLM评估模块则通过模型生成的代码进行判断。

关键创新：SafeGenBench是首个专门针对LLM生成代码安全性的基准框架，填补了现有研究的空白。与传统方法相比，它提供了更全面的评估手段，能够更好地识别安全漏洞。

关键设计：在设计中，数据集包含多种常见漏洞类型，静态分析使用了先进的安全检测技术，LLM评估模块则采用了最新的模型架构，以确保评估的准确性和全面性。

📊 实验亮点

实验结果表明，当前主流的LLM在生成无漏洞代码方面存在显著不足，具体表现为在SafeGenBench上评估时，平均漏洞检测率低于30%。这一发现强调了在LLM代码生成中加强安全性的重要性，并为未来的研究提供了明确的改进方向。

🎯 应用场景

该研究的潜在应用领域包括软件开发、代码审计和安全性评估等。通过提供一个系统化的安全评估框架，开发者可以在代码生成过程中及时识别和修复安全漏洞，从而提升软件的整体安全性。未来，该框架还可能推动LLM在安全代码生成方面的进一步研究与应用。

📄 摘要（原文）

The code generation capabilities of large language models(LLMs) have emerged as a critical dimension in evaluating their overall performance. However, prior research has largely overlooked the security risks inherent in the generated code. In this work, we introduce SafeGenBench, a benchmark specifically designed to assess the security of LLM-generated code. The dataset encompasses a wide range of common software development scenarios and vulnerability types. Building upon this benchmark, we develop an automatic evaluation framework that leverages both static application security testing(SAST) and LLM-based judging to assess the presence of security vulnerabilities in model-generated code. Through the empirical evaluation of state-of-the-art LLMs on SafeGenBench, we reveal notable deficiencies in their ability to produce vulnerability-free code. Our findings highlight pressing challenges and offer actionable insights for future advancements in the secure code generation performance of LLMs. The data and code will be released soon.

SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册