Self-Supervised Learning of Graph Representations for Network Intrusion Detection

📄 arXiv: 2509.16625v4 📥 PDF

作者: Lorenzo Guerra, Thomas Chapuis, Guillaume Duc, Pavlo Mozharovskyi, Van-Tam Nguyen

分类: cs.LG, cs.CR

发布日期: 2025-09-20 (更新: 2025-12-05)

备注: Accepted at NeurIPS 2025


💡 一句话要点

提出GraphIDS,通过自监督图表示学习进行网络入侵检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 网络入侵检测 图神经网络 自监督学习 异常检测 Transformer 图表示学习

📋 核心要点

  1. 现有网络入侵检测方法通常将表示学习与异常检测分离,导致嵌入表示对识别攻击的效用受限。
  2. GraphIDS通过自监督学习统一表示学习和异常检测,利用掩码自编码器学习正常通信模式的局部图表示。
  3. GraphIDS在NetFlow基准测试中表现出色,PR-AUC高达99.98%,宏F1分数高达99.61%,显著优于基线方法。

📝 摘要(中文)

网络流量中的入侵检测是一项具有挑战性的任务,尤其是在有限监督和不断演变的攻击模式下。虽然最近的研究利用图神经网络进行网络入侵检测,但它们通常将表示学习与异常检测分离,限制了嵌入在识别攻击方面的效用。我们提出了GraphIDS,一种自监督入侵检测模型,它通过掩码自编码器学习正常通信模式的局部图表示,从而统一了这两个阶段。一个归纳图神经网络将每个流嵌入其局部拓扑上下文,以捕获典型的网络行为,而一个基于Transformer的编码器-解码器重建这些嵌入,通过自注意力隐式地学习全局共现模式,而不需要显式的位置信息。在推理过程中,具有异常高重建误差的流被标记为潜在的入侵。这种端到端框架确保了嵌入直接针对下游任务进行优化,从而促进了恶意流量的识别。在不同的NetFlow基准测试中,GraphIDS实现了高达99.98%的PR-AUC和99.61%的宏F1分数,比基线提高了5-25个百分点。

🔬 方法详解

问题定义:网络入侵检测旨在识别网络流量中的恶意行为。现有方法,特别是基于图神经网络的方法,通常将图表示学习和异常检测作为两个独立的步骤进行处理。这种分离导致学习到的图嵌入可能无法很好地适应下游的异常检测任务,从而降低了检测性能。此外,现有方法难以适应不断演变的攻击模式。

核心思路:GraphIDS的核心思路是通过自监督学习,将图表示学习和异常检测统一到一个端到端的框架中。它利用掩码自编码器学习正常网络通信模式的局部图表示,并通过重建误差来识别异常流量。这种方法使得学习到的图嵌入能够直接针对异常检测任务进行优化,从而提高检测性能。

技术框架:GraphIDS的整体框架包括以下几个主要模块:1) 图构建:将网络流量数据构建成图结构,其中节点表示网络流,边表示流之间的关系。2) 图嵌入:使用归纳图神经网络(Inductive GNN)将每个网络流嵌入到其局部拓扑上下文中,以捕获典型的网络行为。3) 掩码自编码器:使用基于Transformer的编码器-解码器结构,对图嵌入进行重建。编码器将图嵌入编码成潜在表示,解码器则尝试从潜在表示中重建原始的图嵌入。4) 异常检测:通过计算重建误差来识别异常流量。重建误差较高的流量被认为是潜在的入侵。

关键创新:GraphIDS的关键创新在于其端到端的自监督学习框架,该框架将图表示学习和异常检测统一起来。通过掩码自编码器学习正常网络通信模式的局部图表示,并利用重建误差进行异常检测,使得学习到的图嵌入能够直接针对异常检测任务进行优化。此外,使用Transformer架构来学习全局共现模式,无需显式的位置信息,增强了模型的泛化能力。

关键设计:在图构建阶段,需要选择合适的特征来表示网络流,并定义流之间的关系。在图嵌入阶段,需要选择合适的图神经网络结构和训练策略。在掩码自编码器阶段,需要选择合适的Transformer架构和损失函数。论文中使用了交叉熵损失函数来衡量重建误差。此外,需要调整掩码比例以平衡模型的学习能力和泛化能力。具体参数设置未知。

📊 实验亮点

GraphIDS在多个NetFlow基准测试中取得了显著的性能提升,PR-AUC最高达到99.98%,宏F1分数最高达到99.61%,相比现有基线方法提升了5-25个百分点。这些结果表明GraphIDS在网络入侵检测方面具有很强的竞争力。

🎯 应用场景

GraphIDS可应用于各种网络安全场景,例如企业网络安全监控、云安全防护、物联网设备安全等。通过实时分析网络流量,检测潜在的入侵行为,帮助安全人员及时采取措施,保护网络资产免受攻击。该研究对于提升网络安全防御能力具有重要意义。

📄 摘要(原文)

Detecting intrusions in network traffic is a challenging task, particularly under limited supervision and constantly evolving attack patterns. While recent works have leveraged graph neural networks for network intrusion detection, they often decouple representation learning from anomaly detection, limiting the utility of the embeddings for identifying attacks. We propose GraphIDS, a self-supervised intrusion detection model that unifies these two stages by learning local graph representations of normal communication patterns through a masked autoencoder. An inductive graph neural network embeds each flow with its local topological context to capture typical network behavior, while a Transformer-based encoder-decoder reconstructs these embeddings, implicitly learning global co-occurrence patterns via self-attention without requiring explicit positional information. During inference, flows with unusually high reconstruction errors are flagged as potential intrusions. This end-to-end framework ensures that embeddings are directly optimized for the downstream task, facilitating the recognition of malicious traffic. On diverse NetFlow benchmarks, GraphIDS achieves up to 99.98% PR-AUC and 99.61% macro F1-score, outperforming baselines by 5-25 percentage points.