Assessing Crime Disclosure Patterns in a Large-Scale Cybercrime Forum
作者: Raphael Hoheisel, Tom Meurs, Jai Wientjes, Marianne Junger, Abhishta Abhishta, Masarah Paquet-Clouston
分类: cs.CY, cs.AI
发布日期: 2026-03-02
备注: 12 pages, 4 figures
💡 一句话要点
提出基于LLM的犯罪披露模式分析方法,用于大规模网络犯罪论坛内容理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网络犯罪论坛 犯罪披露模式 大型语言模型 文本分类 马尔可夫链 网络安全 行为分析
📋 核心要点
- 现有研究对网络犯罪论坛用户行为,特别是犯罪活动披露方面的动态了解不足。
- 利用大型语言模型构建可扩展的标注流程,对帖子内容进行良性、灰色、犯罪三级分类。
- 分析初始帖子的犯罪披露水平、用户在不同级别间的切换,以及犯罪披露与私信的关联。
📝 摘要(中文)
本研究首次大规模评估了大型网络犯罪论坛中的犯罪披露模式,分析了近30万用户超过350万条帖子。通过三级分类方案(良性、灰色和犯罪)和基于大型语言模型(LLM)的可扩展标注流程,测量了初始帖子中的犯罪披露水平,分析了参与者在不同级别之间的切换方式,并评估了犯罪披露行为与私人通信的关系。结果表明,犯罪披露具有相对规范性:四分之一的初始帖子包含明确的犯罪相关内容,超过三分之一的用户在其初始帖子中至少披露过一次犯罪活动。同时,大多数参与者表现出克制,超过三分之二的人只发布良性或灰色内容,并且通常逐步升级披露。灰色初始帖子尤为突出,表明许多用户避免公开声明,而是将他们的活动锚定在模棱两可的内容中。该研究强调了基于LLM的文本分类和马尔可夫链建模在捕获犯罪披露模式方面的价值,为执法部门区分网络犯罪论坛中的良性、灰色和犯罪内容提供了见解。
🔬 方法详解
问题定义:现有方法难以有效分析大规模网络犯罪论坛中用户的犯罪披露模式,缺乏对用户行为动态的深入理解,无法有效区分良性、灰色和犯罪内容,给执法带来挑战。
核心思路:利用大型语言模型(LLM)强大的文本理解和分类能力,构建可扩展的标注流程,对论坛帖子进行分类,并结合马尔可夫链建模分析用户行为的动态变化。通过量化犯罪披露水平,揭示用户行为模式,为执法部门提供决策支持。
技术框架:该研究的技术框架主要包括数据收集与预处理、基于LLM的文本分类、犯罪披露模式分析和关联性分析四个阶段。首先,从大型网络犯罪论坛收集帖子数据,并进行清洗和预处理。然后,利用LLM对帖子进行三级分类(良性、灰色和犯罪)。接着,使用马尔可夫链建模分析用户在不同类别之间的切换模式。最后,分析犯罪披露行为与私人通信之间的关联性。
关键创新:该研究的关键创新在于首次将大型语言模型应用于大规模网络犯罪论坛的犯罪披露模式分析,并提出了一个可扩展的标注流程。此外,该研究还结合了马尔可夫链建模,能够动态地分析用户行为的变化,从而更全面地理解犯罪披露模式。
关键设计:在基于LLM的文本分类中,采用了微调的预训练语言模型,并针对网络犯罪论坛的特点,设计了特定的分类标签和训练数据。在马尔可夫链建模中,状态定义为帖子的分类级别(良性、灰色和犯罪),转移概率表示用户在不同级别之间切换的可能性。此外,还分析了初始帖子的犯罪披露水平,以及犯罪披露行为与私人通信之间的关联性。
🖼️ 关键图片
📊 实验亮点
研究结果表明,四分之一的初始帖子包含明确的犯罪相关内容,超过三分之一的用户在其初始帖子中至少披露过一次犯罪活动。同时,大多数参与者表现出克制,超过三分之二的人只发布良性或灰色内容。灰色初始帖子尤为突出,表明许多用户避免公开声明。该研究验证了LLM在网络犯罪内容分析中的有效性。
🎯 应用场景
该研究成果可应用于网络安全领域,帮助执法部门更有效地识别和追踪网络犯罪活动。通过分析犯罪披露模式,可以区分良性、灰色和犯罪内容,从而提高网络犯罪侦查的效率和准确性。此外,该研究还可以用于评估网络犯罪论坛的安全风险,并制定相应的安全策略。
📄 摘要(原文)
Cybercrime forums play a central role in the cybercrime ecosystem, serving as hubs for the exchange of illicit goods, services, and knowledge. Previous studies have explored the market and social structures of these forums, but less is known about the behavioral dynamics of users, particularly regarding participants' disclosure of criminal activity. This study provides the first large-scale assessment of crime disclosure patterns in a major cybercrime forum, analysing over 3.5 million posts from nearly 300k users. Using a three-level classification scheme (benign, grey, and crime) and a scalable labelling pipeline powered by large language models (LLMs), we measure the level of crime disclosure present in initial posts, analyse how participants switch between levels, and assess how crime disclosure behavior relates to private communications. Our results show that crime disclosure is relatively normative: one quarter of initial posts include explicit crime-related content, and more than one third of users disclose criminal activity at least once in their initial posts. At the same time, most participants show restraint, with over two-thirds posting only benign or grey content and typically escalating disclosure gradually. Grey initial posts are particularly prominent, indicating that many users avoid overt statements and instead anchor their activity in ambiguous content. The study highlights the value of LLM-based text classification and Markov chain modelling for capturing crime disclosure patterns, offering insights for law enforcement efforts aimed at distinguishing benign, grey, and criminal content in cybercrime forums.