SEAR: A Multimodal Dataset for Analyzing AR-LLM-Driven Social Engineering Behaviors

作者: Tianlong Yu, Chenghang Ye, Zheyu Yang, Ziyi Zhou, Cui Tang, Zui Tao, Jun Zhang, Kailong Wang, Liting Zhou, Yang Yang, Ting Bi

分类: cs.AI

发布日期: 2025-05-30

🔗 代码/项目: GITHUB

💡 一句话要点

提出SEAR数据集以分析增强现实驱动的社会工程攻击行为

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社会工程攻击 增强现实 多模态数据 信任评估 网络安全 数据集构建 人机交互 行为分析

📋 核心要点

现有方法在检测和防御增强现实驱动的社会工程攻击方面存在不足，缺乏多模态数据支持。
论文提出了SEAR数据集，通过捕捉多种模态信息，帮助研究者分析社会工程攻击的行为模式。
实验结果显示，SEAR数据集在引发用户合规性和信任劫持方面表现出色，提供了重要的实证数据。

📝 摘要（中文）

SEAR数据集是一个新颖的多模态资源，旨在研究通过增强现实（AR）和多模态大型语言模型（LLMs）策划的社会工程（SE）攻击的威胁。该数据集捕捉了60名参与者在模拟对抗场景（如会议、课堂和社交活动）中的180个标注对话，包含同步的AR捕获的视觉/音频线索（如面部表情、声调）、环境上下文和策划的社交媒体资料，以及主观指标如信任评分和易受影响评估。关键发现表明，SEAR在引发合规性方面的有效性令人担忧（如93.3%的钓鱼链接点击率，85%的电话接受率）和信任劫持（76.7%的互动后信任激增）。该数据集支持研究AR驱动的SE攻击检测、设计防御框架和理解多模态对抗操控。严格的伦理保障措施确保了负责任的使用。

🔬 方法详解

问题定义：论文要解决的具体问题是如何有效分析和检测通过增强现实和多模态语言模型实施的社会工程攻击。现有方法缺乏对多模态信息的综合利用，导致在真实场景中的适用性不足。

核心思路：论文的核心解决思路是构建一个包含多种模态信息的综合数据集，以便深入分析社会工程攻击的行为特征和影响因素。通过多模态数据的整合，研究者能够更全面地理解攻击者的策略和受害者的反应。

技术框架：整体架构包括数据收集、标注、分析和应用四个主要模块。数据收集阶段通过AR技术捕捉视觉和音频信息，标注阶段则对对话进行详细的情感和行为标注，分析阶段利用机器学习技术提取特征，最后应用阶段则是基于数据集进行攻击检测和防御策略设计。

关键创新：最重要的技术创新点在于构建了一个多模态的社交工程攻击数据集，结合了AR捕获的视觉信息和音频线索，填补了现有研究的空白。与传统单一模态数据集相比，SEAR提供了更丰富的上下文信息。

关键设计：在数据集构建过程中，采用了严格的标注标准和伦理审查，确保数据的可靠性和使用的合规性。关键参数设置包括信任评分和易受影响评估的设计，确保能够有效反映参与者的真实反应。数据集中的损失函数和分析模型经过精心设计，以提高对社会工程攻击的检测能力。

📊 实验亮点

实验结果显示，SEAR数据集在引发用户合规性方面表现出色，93.3%的钓鱼链接点击率和85%的电话接受率，表明其在社会工程攻击中的有效性。此外，76.7%的参与者在互动后信任度显著上升，揭示了AR技术在操控信任方面的潜力。

🎯 应用场景

该研究的潜在应用领域包括网络安全、社交媒体分析和人机交互等。通过深入理解增强现实驱动的社会工程攻击行为，研究者和从业者可以设计出更有效的防御机制，提升用户的安全意识和防护能力。未来，该数据集还可能推动相关领域的研究进展，促进技术与伦理的结合。

📄 摘要（原文）

The SEAR Dataset is a novel multimodal resource designed to study the emerging threat of social engineering (SE) attacks orchestrated through augmented reality (AR) and multimodal large language models (LLMs). This dataset captures 180 annotated conversations across 60 participants in simulated adversarial scenarios, including meetings, classes and networking events. It comprises synchronized AR-captured visual/audio cues (e.g., facial expressions, vocal tones), environmental context, and curated social media profiles, alongside subjective metrics such as trust ratings and susceptibility assessments. Key findings reveal SEAR's alarming efficacy in eliciting compliance (e.g., 93.3% phishing link clicks, 85% call acceptance) and hijacking trust (76.7% post-interaction trust surge). The dataset supports research in detecting AR-driven SE attacks, designing defensive frameworks, and understanding multimodal adversarial manipulation. Rigorous ethical safeguards, including anonymization and IRB compliance, ensure responsible use. The SEAR dataset is available at https://github.com/INSLabCN/SEAR-Dataset.

SEAR: A Multimodal Dataset for Analyzing AR-LLM-Driven Social Engineering Behaviors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册