CAM-LDS: Cyber Attack Manifestations for Automatic Interpretation of System Logs and Security Alerts

📄 arXiv: 2603.04186v1 📥 PDF

作者: Max Landauer, Wolfgang Hotwagner, Thorina Boenke, Florian Skopik, Markus Wurzenberger

分类: cs.CR, cs.AI

发布日期: 2026-03-04


💡 一句话要点

提出CAM-LDS数据集,用于提升LLM在系统日志和安全警报中的网络攻击自动解释能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 日志分析 大型语言模型 网络安全 入侵检测 数据集 安全警报

📋 核心要点

  1. 现有日志分析方法依赖领域专家知识和手工特征工程,缺乏对日志的语义理解能力,自动化程度受限。
  2. 提出CAM-LDS数据集,包含多种攻击场景和技术,旨在促进大型语言模型在日志分析中的应用。
  3. 实验结果表明,利用LLM处理CAM-LDS数据集,在一定程度上能够准确预测攻击技术,验证了数据集的有效性。

📝 摘要(中文)

日志数据对于入侵检测和取证调查至关重要。然而,由于数据量大、事件格式异构和消息非结构化,手动日志分析非常繁琐。尽管存在许多自动化的日志分析方法,但它们通常仍然依赖于特定领域的配置,例如专家定义的检测规则、手工制作的日志解析器或手动特征工程。传统方法的自动化程度受到限制,因为它们无法语义理解日志并解释其根本原因。相比之下,大型语言模型能够对系统日志和安全警报进行领域和格式无关的解释。为了解决公开可用的、涵盖广泛攻击技术的带标签数据集稀缺的问题,我们引入了网络攻击表现日志数据集(CAM-LDS),该数据集包含七个攻击场景,涵盖13个策略中的81种不同技术,并从完全开源和可重现的测试环境中的18个不同来源收集。我们提取直接由攻击执行产生的日志事件,以促进对命令可观察性、事件频率、性能指标和入侵检测警报的表现形式的分析。我们进一步提出了一个利用LLM处理CAM-LDS的示例案例研究。结果表明,对于大约三分之一的攻击步骤,可以完美地预测正确的攻击技术,而对于另外三分之一的攻击步骤,可以充分地预测正确的攻击技术,这突出了基于LLM的日志解释的潜力和我们数据集的效用。

🔬 方法详解

问题定义:现有日志分析方法依赖于专家定义的规则和手工特征工程,难以应对大规模、异构的日志数据,并且缺乏对攻击根本原因的理解能力。这限制了自动化程度和分析效率。

核心思路:利用大型语言模型(LLM)强大的语义理解和泛化能力,直接从原始日志数据中学习攻击模式,避免人工特征工程和领域知识依赖。通过构建包含多种攻击场景的CAM-LDS数据集,为LLM的训练和评估提供数据基础。

技术框架:该研究主要围绕CAM-LDS数据集的构建和LLM的应用展开。数据集构建包括:1)搭建开源可复现的测试环境;2)设计包含多种攻击技术的攻击场景;3)从多个来源收集日志数据;4)提取与攻击直接相关的日志事件。LLM应用方面,使用LLM直接处理CAM-LDS数据集,并评估其预测攻击技术的能力。

关键创新:该研究的关键创新在于构建了CAM-LDS数据集,该数据集涵盖了多种攻击技术和场景,为基于LLM的日志分析研究提供了数据基础。与现有数据集相比,CAM-LDS具有更广泛的攻击覆盖范围和更高的可复现性。

关键设计:CAM-LDS数据集包含七个攻击场景,涵盖81种不同的攻击技术,这些技术分布在13个不同的攻击策略中。数据集从18个不同的来源收集日志事件。案例研究中,具体LLM的选择和训练细节未明确说明,但强调了利用LLM直接处理原始日志数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

使用LLM处理CAM-LDS数据集的案例研究表明,对于大约三分之一的攻击步骤,LLM能够完美预测正确的攻击技术,而对于另外三分之一的攻击步骤,LLM能够充分预测正确的攻击技术。这表明LLM在日志分析方面具有巨大的潜力,并验证了CAM-LDS数据集的有效性。

🎯 应用场景

该研究成果可应用于自动化安全运营中心(SOC)、入侵检测系统(IDS)和安全信息与事件管理(SIEM)系统。通过利用LLM对系统日志和安全警报进行自动解释,可以显著提高安全分析师的效率,并降低对领域专家的依赖。未来,该方法有望实现更智能化的威胁检测和响应。

📄 摘要(原文)

Log data are essential for intrusion detection and forensic investigations. However, manual log analysis is tedious due to high data volumes, heterogeneous event formats, and unstructured messages. Even though many automated methods for log analysis exist, they usually still rely on domain-specific configurations such as expert-defined detection rules, handcrafted log parsers, or manual feature-engineering. Crucially, the level of automation of conventional methods is limited due to their inability to semantically understand logs and explain their underlying causes. In contrast, Large Language Models enable domain- and format-agnostic interpretation of system logs and security alerts. Unfortunately, research on this topic remains challenging, because publicly available and labeled data sets covering a broad range of attack techniques are scarce. To address this gap, we introduce the Cyber Attack Manifestation Log Data Set (CAM-LDS), comprising seven attack scenarios that cover 81 distinct techniques across 13 tactics and collected from 18 distinct sources within a fully open-source and reproducible test environment. We extract log events that directly result from attack executions to facilitate analysis of manifestations concerning command observability, event frequencies, performance metrics, and intrusion detection alerts. We further present an illustrative case study utilizing an LLM to process the CAM-LDS. The results indicate that correct attack techniques are predicted perfectly for approximately one third of attack steps and adequately for another third, highlighting the potential of LLM-based log interpretation and utility of our data set.