Cracking IoT Security: Can LLMs Outsmart Static Analysis Tools?

📄 arXiv: 2601.00559v1 📥 PDF

作者: Jason Quantrill, Noura Khajehnouri, Zihan Guo, Manar H. Alalfi

分类: cs.CR, cs.AI

发布日期: 2026-01-02


💡 一句话要点

评估LLM在物联网安全漏洞检测中的能力,揭示其在结构推理方面的局限性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物联网安全 大型语言模型 交互威胁检测 静态分析 智能家居 规则推理 语义理解

📋 核心要点

  1. 智能家居物联网平台存在交互威胁,现有方法依赖符号分析,但缺乏对语义的理解。
  2. 本文提出使用大型语言模型(LLMs)来检测这些威胁,利用其语义理解能力。
  3. 实验表明,LLM在语义理解方面有潜力,但在结构推理方面存在局限性,不如符号推理稳定。

📝 摘要(中文)

本文全面评估了大型语言模型(LLMs)在多类别交互威胁分类中的表现,这些威胁源于智能家居物联网平台(如openHAB)中触发-动作-条件(TAC)规则之间的复杂交互。研究使用原始openHAB数据集(oHC/IoTB)和一个结构突变数据集,后者旨在测试LLM在规则转换下的鲁棒性。研究对比了Llama 3.1 8B、Llama 70B、GPT-4o、Gemini-2.5-Pro和DeepSeek-R1在零样本、单样本和双样本设置下的性能,并与oHIT的手动验证真值进行比较。结果表明,LLM在动作和条件相关的威胁方面表现出良好的语义理解,但在需要跨规则结构推理的威胁方面,准确性显著下降,尤其是在规则发生突变时。模型性能在不同威胁类别和提示设置中差异很大,没有模型能提供一致的可靠性。相比之下,符号推理基线在两个数据集上保持了稳定的检测,不受规则重写或结构扰动的影响。研究结果表明,LLM单独使用尚不能可靠地检测物联网环境中的安全关键交互威胁。讨论了工具设计的意义,并强调了混合架构的潜力,该架构结合了符号分析和基于LLM的语义解释,以减少误报,同时保持结构严谨性。

🔬 方法详解

问题定义:论文旨在解决智能家居物联网平台中,由于触发-动作-条件(TAC)规则之间的复杂交互而产生的交互威胁检测问题。现有方法主要依赖于符号驱动的静态分析,虽然在结构推理方面表现良好,但缺乏对规则语义的理解,导致较高的误报率,并且难以处理规则的细微变化。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的语义理解能力,来识别TAC规则中的交互威胁。LLM能够理解自然语言描述的规则,并从中推断出潜在的冲突、依赖关系和不安全行为。通过结合LLM的语义理解和符号分析的结构推理,可以构建更准确、更鲁棒的威胁检测系统。

技术框架:论文采用了一种基于LLM的交互威胁检测框架。该框架首先将TAC规则输入到LLM中,LLM根据预定义的威胁类别和提示,对规则进行分析,并输出潜在的威胁。然后,将LLM的输出与符号分析的结果进行融合,以提高检测的准确性和可靠性。框架包含以下主要模块:规则解析模块、LLM推理模块、威胁分类模块和结果融合模块。

关键创新:论文最重要的技术创新点在于首次全面评估了LLM在物联网安全漏洞检测中的能力,并揭示了其在结构推理方面的局限性。与现有方法相比,该方法利用了LLM的语义理解能力,能够更准确地识别复杂的交互威胁。此外,论文还提出了一个结构突变数据集,用于测试LLM在规则转换下的鲁棒性。

关键设计:论文的关键设计包括:1) 选择了多个具有代表性的LLM(Llama 3.1 8B, Llama 70B, GPT-4o, Gemini-2.5-Pro, and DeepSeek-R1)进行评估;2) 设计了零样本、单样本和双样本等不同的提示策略,以探索LLM的最佳性能;3) 构建了一个结构突变数据集,用于测试LLM在规则转换下的鲁棒性;4) 采用了精确率、召回率和F1值等指标来评估LLM的性能。

📊 实验亮点

实验结果表明,LLM在动作和条件相关的威胁方面表现出良好的语义理解,但在需要跨规则结构推理的威胁方面,准确性显著下降。例如,在结构突变数据集上,LLM的性能明显低于原始数据集。相比之下,符号推理基线在两个数据集上保持了稳定的检测。GPT-4o在某些威胁类别上表现最佳,但没有模型能提供一致的可靠性。

🎯 应用场景

该研究成果可应用于智能家居安全、物联网设备安全和自动化规则验证等领域。通过结合LLM的语义理解和符号分析的结构推理,可以构建更智能、更可靠的物联网安全防护系统,有效降低安全风险,提升用户体验。未来的研究可以探索更有效的混合架构,以及针对特定物联网场景的LLM微调方法。

📄 摘要(原文)

Smart home IoT platforms such as openHAB rely on Trigger Action Condition (TAC) rules to automate device behavior, but the interplay among these rules can give rise to interaction threats, unintended or unsafe behaviors emerging from implicit dependencies, conflicting triggers, or overlapping conditions. Identifying these threats requires semantic understanding and structural reasoning that traditionally depend on symbolic, constraint-driven static analysis. This work presents the first comprehensive evaluation of Large Language Models (LLMs) across a multi-category interaction threat taxonomy, assessing their performance on both the original openHAB (oHC/IoTB) dataset and a structurally challenging Mutation dataset designed to test robustness under rule transformations. We benchmark Llama 3.1 8B, Llama 70B, GPT-4o, Gemini-2.5-Pro, and DeepSeek-R1 across zero-, one-, and two-shot settings, comparing their results against oHIT's manually validated ground truth. Our findings show that while LLMs exhibit promising semantic understanding, particularly on action- and condition-related threats, their accuracy degrades significantly for threats requiring cross-rule structural reasoning, especially under mutated rule forms. Model performance varies widely across threat categories and prompt settings, with no model providing consistent reliability. In contrast, the symbolic reasoning baseline maintains stable detection across both datasets, unaffected by rule rewrites or structural perturbations. These results underscore that LLMs alone are not yet dependable for safety critical interaction-threat detection in IoT environments. We discuss the implications for tool design and highlight the potential of hybrid architectures that combine symbolic analysis with LLM-based semantic interpretation to reduce false positives while maintaining structural rigor.