Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots

作者: Huw Day, Adrianna Jezierska, Jessica Woodgate

分类: cs.HC, cs.AI

发布日期: 2026-03-02

备注: Accepted to ICLR 2026 AI for peace workshop

💡 一句话要点

提出利用“越狱”对抗LLM社交媒体机器人，作为一种非暴力冲突降级实践

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社交媒体机器人 越狱 虚假信息 冲突降级

📋 核心要点

社交媒体上LLM驱动的政治言论操纵加剧冲突，现有方法侧重于平台审核，存在局限性。
论文提出用户主导的“越狱”方法，通过绕过LLM安全措施来暴露自动化行为，从而扰乱误导性叙事。
该研究着眼于用户对抗LLM社交媒体机器人的新兴实践，强调其作为非暴力冲突降级手段的潜力。

📝 摘要（中文）

大型语言模型（LLM）加剧了社交媒体上政治言论的规模和战略性操纵，导致冲突升级。现有文献主要关注平台主导的审核作为一种对策。本文提出了一种以用户为中心的“越狱”视角，将其视为一种新兴的、非暴力的降级实践。在线用户与疑似由LLM驱动的账户互动，以规避大型语言模型的安全措施，从而暴露自动化行为并扰乱误导性叙事的传播。

🔬 方法详解

问题定义：论文关注社交媒体上由大型语言模型（LLM）驱动的政治言论操纵问题，这种操纵加剧了社会冲突。现有方法主要依赖于平台主导的内容审核，但这种方法可能存在滞后性、审查偏差以及难以应对快速演变的LLM技术等问题。因此，如何有效对抗LLM驱动的虚假信息传播和恶意言论操纵，成为一个重要的挑战。

核心思路：论文的核心思路是将用户视为对抗LLM社交媒体机器人的积极参与者，而非被动受害者。通过“越狱”技术，即利用特定的提示或输入来绕过LLM的安全措施，用户可以暴露LLM的自动化行为，从而扰乱其传播误导性叙事的能力。这种方法强调用户的主动性和创造性，将其视为一种非暴力的冲突降级实践。

技术框架：论文并没有提出一个具体的技术框架，而是对现有用户“越狱”行为进行观察和分析。其核心在于理解用户如何通过设计巧妙的提示来诱导LLM生成违反其安全策略的内容，从而暴露其自动化本质。这种“越狱”行为可以被视为一种逆向工程，旨在发现LLM的弱点并利用这些弱点来对抗其恶意用途。

关键创新：论文的创新之处在于将“越狱”行为从一种潜在的风险（例如，生成有害内容）重新定义为一种对抗LLM恶意用途的手段。它强调了用户在对抗LLM驱动的虚假信息传播中的积极作用，并提出了一种非暴力的冲突降级策略。与传统的平台审核方法相比，这种用户主导的方法更加灵活和具有适应性。

关键设计：由于论文主要关注对现有用户行为的分析，因此没有涉及具体的参数设置、损失函数或网络结构等技术细节。其关键在于对“越狱”提示的设计和选择，以及对LLM响应的分析，以判断其是否受到自动化控制。

🖼️ 关键图片

📊 实验亮点

该研究的主要亮点在于提出了一个新颖的视角，将“越狱”视为一种积极的、用户主导的对抗LLM社交媒体机器人的手段。它强调了用户在识别和扰乱虚假信息传播中的重要作用，并为非暴力的冲突降级策略提供了新的思路。虽然没有提供具体的性能数据，但该研究为未来的研究方向提供了有价值的启示。

🎯 应用场景

该研究的潜在应用领域包括：提升公众对LLM社交媒体机器人的认知，开发用户友好的“越狱”工具，辅助记者和研究人员识别和揭露虚假信息传播活动，以及为社交媒体平台设计更有效的防御机制提供思路。未来的影响在于增强用户对抗信息操纵的能力，维护健康的在线讨论环境。

📄 摘要（原文）

Large Language Models have intensified the scale and strategic manipulation of political discourse on social media, leading to conflict escalation. The existing literature largely focuses on platform-led moderation as a countermeasure. In this paper, we propose a user-centric view of "jailbreaking" as an emergent, non-violent de-escalation practice. Online users engage with suspected LLM-powered accounts to circumvent large language model safeguards, exposing automated behaviour and disrupting the circulation of misleading narratives.

Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理