Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
作者: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-03-05
💡 一句话要点
利用审查LLM作为测试平台,探索秘密知识诱导方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 信息审查 诚实诱导 谎言检测 知识诱导
📋 核心要点
- 现有方法主要在人工构造的谎言模型上评估诚实诱导和谎言检测,缺乏对自然虚假信息的有效研究。
- 该论文利用经过审查的中文开源LLM(如Qwen3)作为测试平台,研究模型抑制的知识的诱导方法。
- 实验表明,不使用聊天模板采样、少样本提示和通用诚实数据微调能有效提升真实回答,且部分技术可迁移到其他模型。
📝 摘要(中文)
大型语言模型有时会产生错误或误导性的回答。解决这个问题有两种方法:诚实诱导(修改提示或权重,使模型如实回答)和谎言检测(判断给定的回答是否为假)。以往的研究主要在专门训练来撒谎或隐瞒信息的模型上评估这些方法,但这些人为构造可能与自然发生的虚假信息不同。本文研究了来自中国开发者的开源LLM,这些模型经过训练会审查政治敏感话题。例如,Qwen3模型经常产生关于法轮功或天安门抗议等主题的虚假信息,但偶尔也会正确回答,这表明它们拥有被训练抑制的知识。以此为测试平台,我们评估了一套诱导和谎言检测技术。对于诚实诱导,不使用聊天模板进行采样、少样本提示以及在通用诚实数据上进行微调,最可靠地增加了真实回答。对于谎言检测,提示审查模型对其自身的回答进行分类,其性能接近未审查模型的上限,并且在不相关数据上训练的线性探针提供了一种更廉价的替代方案。最强的诚实诱导技术也适用于包括DeepSeek R1在内的前沿开源模型。值得注意的是,没有一种技术能够完全消除虚假回答。我们发布了所有提示、代码和记录。
🔬 方法详解
问题定义:论文旨在解决如何从经过审查的大型语言模型(LLM)中诱导出其被训练抑制的知识,并检测其产生的虚假信息。现有方法主要集中在人工构造的谎言模型上,缺乏对自然存在的、因审查而产生的虚假信息的有效处理。这些人工模型可能无法真实反映LLM在实际应用中遇到的审查和信息压制情况。
核心思路:论文的核心思路是将经过审查的LLM(特别是来自中国开发者的开源模型,如Qwen3)视为一个天然的测试平台,因为这些模型在处理政治敏感话题时,既可能给出正确答案,也可能给出虚假答案,这表明它们拥有相关知识,但受到审查机制的压制。通过研究如何诱导这些模型给出真实答案,并检测其虚假回答,可以更有效地评估和改进诚实诱导和谎言检测技术。
技术框架:论文采用的整体框架包括两个主要部分:诚实诱导和谎言检测。诚实诱导部分探索了多种提示工程和微调技术,旨在使审查模型更倾向于给出真实回答。这些技术包括:1) 不使用聊天模板进行采样;2) 使用少样本提示;3) 在通用诚实数据集上进行微调。谎言检测部分则研究了如何判断审查模型给出的回答是否为假,包括:1) 提示模型自身进行分类;2) 使用在不相关数据上训练的线性探针。
关键创新:论文的关键创新在于将审查LLM作为一个自然测试平台,这与以往研究中使用人工构造的谎言模型形成了鲜明对比。这种方法更贴近实际应用场景,能够更真实地反映LLM在面对审查和信息压制时的行为。此外,论文还探索了多种诚实诱导和谎言检测技术,并评估了它们在审查模型上的效果,为相关领域的研究提供了新的思路和方法。
关键设计:在诚实诱导方面,论文的关键设计包括:1) 不使用聊天模板,以避免模型受到预设对话模式的限制;2) 使用少样本提示,通过提供少量真实示例来引导模型给出真实回答;3) 在通用诚实数据集上进行微调,以增强模型的诚实性。在谎言检测方面,论文的关键设计包括:1) 提示模型自身进行分类,利用模型自身的知识来判断回答的真伪;2) 使用在不相关数据上训练的线性探针,以降低训练成本和提高泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不使用聊天模板进行采样、少样本提示以及在通用诚实数据上进行微调,能够最可靠地增加审查模型的真实回答。此外,提示审查模型对其自身的回答进行分类,其性能接近未审查模型的上限。最强的诚实诱导技术也适用于包括DeepSeek R1在内的前沿开源模型。但值得注意的是,没有一种技术能够完全消除虚假回答。
🎯 应用场景
该研究成果可应用于提升大型语言模型在信息审查环境下的可靠性和真实性。通过诚实诱导技术,可以减少模型生成虚假信息的可能性。谎言检测技术则可以帮助用户识别模型输出中的潜在错误。这些技术对于构建更值得信赖的人工智能系统具有重要意义,尤其是在涉及敏感信息或需要高度准确性的应用场景中。
📄 摘要(原文)
Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.