DRMD: Deep Reinforcement Learning for Malware Detection under Concept Drift

📄 arXiv: 2508.18839v2 📥 PDF

作者: Shae McFadden, Myles Foley, Mario D'Onghia, Chris Hicks, Vasilios Mavroudis, Nicola Paoletti, Fabio Pierazzi

分类: cs.LG, cs.CR

发布日期: 2025-08-26 (更新: 2025-11-14)

备注: The Fortieth AAAI Conference on Artificial Intelligence (AAAI-26)


💡 一句话要点

提出DRMD以解决恶意软件检测中的概念漂移问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 恶意软件检测 深度强化学习 概念漂移 马尔可夫决策过程 动态适应性 网络安全 人工标注

📋 核心要点

  1. 现有恶意软件检测方法在面对概念漂移时,无法有效保持性能,导致误报和漏报率上升。
  2. 本文提出将恶意软件检测视为一步马尔可夫决策过程,利用深度强化学习优化分类和拒绝高风险样本的策略。
  3. 实验结果表明,DRMD代理在Android恶意软件检测中,平均AUT提升显著,展示了其在动态环境中的有效性和鲁棒性。

📝 摘要(中文)

在现实环境中,恶意软件检测面临不断演变的威胁、有限的标注预算和不确定的预测。传统分类器在恶意软件领域的概念漂移下表现不佳,无法优化何时推迟决策以进行人工标注和适应。本文提出了一种新颖的恶意软件检测方法,将其建模为一步马尔可夫决策过程,并训练深度强化学习代理,优化样本分类性能并拒绝高风险样本进行人工标注。通过对Android恶意软件数据集的时间感知评估,验证了DRMD代理学习的联合检测和漂移缓解策略,结果显示其在概念漂移下的表现优于传统分类方法,平均AUT提升分别为8.66和10.90。

🔬 方法详解

问题定义:本文旨在解决恶意软件检测中因概念漂移导致的性能下降问题。现有的传统分类器在面对不断变化的恶意软件特征时,无法有效适应,导致检测准确率降低。

核心思路:论文提出将恶意软件检测建模为一步马尔可夫决策过程,利用深度强化学习(DRL)代理同时优化样本分类性能和拒绝高风险样本的策略,以减少人工标注的需求。

技术框架:整体架构包括数据输入、特征提取、DRL代理训练和决策输出四个主要模块。数据输入模块负责收集和预处理恶意软件样本,特征提取模块提取样本特征,DRL代理通过与环境交互学习最优策略,最后输出分类结果和拒绝决策。

关键创新:最重要的创新在于将恶意软件检测视为决策过程,利用DRL实现了动态适应性,显著提高了对概念漂移的鲁棒性,与传统静态分类方法相比,具有更强的适应能力。

关键设计:在DRL代理的训练中,采用了特定的损失函数来平衡分类准确性与拒绝高风险样本的能力,网络结构设计上结合了卷积神经网络(CNN)和强化学习框架,以提高特征学习和决策效率。

📊 实验亮点

实验结果显示,DRMD代理在Android恶意软件检测中的平均AUT提升分别为8.66和10.90,显著优于传统分类方法,证明了深度强化学习在动态环境下的有效性和鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括网络安全、移动设备安全和恶意软件防护等。通过提高恶意软件检测的准确性和适应性,DRMD能够有效降低企业和个人用户在面对新型恶意软件威胁时的风险,具有重要的实际价值和未来影响。

📄 摘要(原文)

Malware detection in real-world settings must deal with evolving threats, limited labeling budgets, and uncertain predictions. Traditional classifiers, without additional mechanisms, struggle to maintain performance under concept drift in malware domains, as their supervised learning formulation cannot optimize when to defer decisions to manual labeling and adaptation. Modern malware detection pipelines combine classifiers with monthly active learning (AL) and rejection mechanisms to mitigate the impact of concept drift. In this work, we develop a novel formulation of malware detection as a one-step Markov Decision Process and train a deep reinforcement learning (DRL) agent, simultaneously optimizing sample classification performance and rejecting high-risk samples for manual labeling. We evaluated the joint detection and drift mitigation policy learned by the DRL-based Malware Detection (DRMD) agent through time-aware evaluations on Android malware datasets subject to realistic drift requiring multi-year performance stability. The policies learned under these conditions achieve a higher Area Under Time (AUT) performance compared to standard classification approaches used in the domain, showing improved resilience to concept drift. Specifically, the DRMD agent achieved an average AUT improvement of 8.66 and 10.90 for the classification-only and classification-rejection policies, respectively. Our results demonstrate for the first time that DRL can facilitate effective malware detection and improved resiliency to concept drift in the dynamic setting of Android malware detection.