LLM-Generated Samples for Android Malware Detection
作者: Nik Rollinson, Nikolaos Polatidis
分类: cs.CR, cs.LG
发布日期: 2025-09-30
备注: 24 pages
💡 一句话要点
利用LLM生成样本增强Android恶意软件检测,提升数据稀缺场景下的模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Android恶意软件检测 大型语言模型 数据增强 合成数据生成 GPT-4.1-mini
📋 核心要点
- Android恶意软件的演变对现有检测方法构成挑战,尤其是在数据稀缺和不平衡的情况下。
- 该研究探索使用大型语言模型(LLM)生成合成恶意软件数据,以增强现有检测模型的训练。
- 实验结果表明,使用LLM生成的合成数据增强真实数据可以保持较高的检测性能,但单独使用合成数据效果不佳。
📝 摘要(中文)
Android恶意软件通过混淆和多态性不断演变,对基于签名的防御和在有限且不平衡数据集上训练的机器学习模型提出了挑战。合成数据已被提议作为解决数据稀缺问题的方法,但大型语言模型(LLM)在生成用于检测任务的有效恶意软件数据方面的作用仍未得到充分探索。本研究微调了GPT-4.1-mini,使用KronoDroid数据集为三个恶意软件家族(BankBot、Locker/SLocker和Airpush/StopSMS)生成结构化记录。在通过提示工程和后处理解决生成不一致问题后,我们在三种设置下评估了多个分类器:仅使用真实数据训练、真实数据加合成数据训练以及仅使用合成数据训练。结果表明,仅使用真实数据训练可实现接近完美的检测,而使用合成数据增强可在保持高性能的同时仅略有降低。相比之下,仅使用合成数据训练会产生混合结果,其有效性因恶意软件家族和微调策略而异。这些发现表明,LLM生成的恶意软件可以增强稀缺数据集,而不会影响检测准确性,但作为独立的训练来源仍然不足。
🔬 方法详解
问题定义:Android恶意软件检测面临数据稀缺和类别不平衡的问题,导致机器学习模型泛化能力不足。现有方法难以有效应对恶意软件的混淆和多态性,需要更多样化的训练数据。
核心思路:利用大型语言模型(LLM)的生成能力,生成高质量的合成恶意软件数据,以扩充训练数据集,从而提高恶意软件检测模型的性能和鲁棒性。通过微调LLM,使其能够生成特定恶意软件家族的结构化数据。
技术框架:该研究使用GPT-4.1-mini作为基础LLM,并使用KronoDroid数据集中的恶意软件样本进行微调。通过提示工程(Prompt Engineering)和后处理技术,解决LLM生成数据的不一致性问题。然后,使用真实数据、真实数据+合成数据、仅合成数据三种方式训练分类器,并评估其检测性能。
关键创新:该研究探索了使用LLM生成合成恶意软件数据用于增强检测模型的训练,并验证了其可行性。通过提示工程和后处理,提高了LLM生成数据的质量和一致性。与传统的数据增强方法相比,LLM能够生成更具多样性和复杂性的恶意软件样本。
关键设计:使用GPT-4.1-mini作为基础模型,针对BankBot、Locker/SLocker和Airpush/StopSMS三个恶意软件家族进行微调。采用结构化的数据记录格式,以便LLM能够生成具有特定属性的恶意软件样本。通过实验对比不同训练策略(真实数据、真实数据+合成数据、仅合成数据)下的模型性能,评估合成数据的有效性。
📊 实验亮点
实验结果表明,使用真实数据训练的分类器能够实现接近完美的检测性能。使用LLM生成的合成数据增强真实数据,可以在保持高性能的同时,仅略微降低检测准确率。然而,仅使用合成数据训练的分类器,其性能表现因恶意软件家族和微调策略而异,表明合成数据不能完全替代真实数据。
🎯 应用场景
该研究成果可应用于Android恶意软件检测系统的改进,尤其是在恶意软件样本稀缺的情况下。通过LLM生成合成数据,可以有效增强模型的泛化能力,提高检测准确率。此外,该方法还可以扩展到其他安全领域,例如网络入侵检测和漏洞挖掘,为安全研究人员提供一种新的数据增强手段。
📄 摘要(原文)
Android malware continues to evolve through obfuscation and polymorphism, posing challenges for both signature-based defenses and machine learning models trained on limited and imbalanced datasets. Synthetic data has been proposed as a remedy for scarcity, yet the role of large language models (LLMs) in generating effective malware data for detection tasks remains underexplored. In this study, we fine-tune GPT-4.1-mini to produce structured records for three malware families: BankBot, Locker/SLocker, and Airpush/StopSMS, using the KronoDroid dataset. After addressing generation inconsistencies with prompt engineering and post-processing, we evaluate multiple classifiers under three settings: training with real data only, real-plus-synthetic data, and synthetic data alone. Results show that real-only training achieves near perfect detection, while augmentation with synthetic data preserves high performance with only minor degradations. In contrast, synthetic-only training produces mixed outcomes, with effectiveness varying across malware families and fine-tuning strategies. These findings suggest that LLM-generated malware can enhance scarce datasets without compromising detection accuracy, but remains insufficient as a standalone training source.