On the Definition and Detection of Cherry-Picking in Counterfactual Explanations

📄 arXiv: 2601.04977v1 📥 PDF

作者: James Hinns, Sofie Goethals, Stephan Van der Veeken, Theodoros Evgeniou, David Martens

分类: cs.LG, cs.AI

发布日期: 2026-01-08


💡 一句话要点

定义并研究了反事实解释中的“挑选”现象,揭示了检测此类操纵的局限性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 反事实解释 可解释性 挑选 模型审计 公平性 机器学习 优化 检测

📋 核心要点

  1. 反事实解释易被操纵,解释提供者可能挑选有利的解释,掩盖不利信息。
  2. 论文形式化定义了反事实解释中的“挑选”现象,并研究了检测此类操纵的难度。
  3. 实验表明,即使拥有完全访问权限,挑选的解释也难以与正常解释区分,建议优先考虑可重复性和标准化。

📝 摘要(中文)

反事实解释被广泛用于沟通输入需要如何改变才能使模型改变其预测。对于单个实例,可能存在许多有效的反事实解释,这使得解释提供者可以选择更符合其叙述的解释,突出有利的行为并隐瞒揭示问题行为的例子。本文从可接受的解释空间(由生成过程指定)和效用函数的角度,正式定义了反事实解释中的“挑选”现象。然后,研究了外部审计员在多大程度上可以检测到这种操纵。考虑到对解释过程的三个级别的访问:完全程序访问、部分程序访问和仅解释访问,结果表明,在实践中检测非常有限。即使具有完全的程序访问权限,挑选的解释仍然难以与非挑选的解释区分开来,因为有效反事实的多样性和解释规范的灵活性提供了足够的自由度来掩盖有意的选择。经验表明,这种可变性通常超过了挑选对标准反事实质量指标(如接近度、合理性和稀疏性)的影响,使得挑选的解释在统计上与基线解释无法区分。因此,本文认为,保障措施应优先考虑可重复性、标准化和程序约束,而不是事后检测,并为算法开发人员、解释提供者和审计人员提供建议。

🔬 方法详解

问题定义:论文旨在解决反事实解释中存在的“挑选”(cherry-picking)问题。具体来说,当存在多个有效的反事实解释时,解释提供者可能会有选择性地呈现那些对其有利的解释,从而误导用户或掩盖模型潜在的问题。现有方法缺乏对这种操纵行为的有效检测机制,导致反事实解释的可信度受到质疑。

核心思路:论文的核心思路是将“挑选”行为形式化定义为一个优化问题,其中解释提供者试图最大化其效用函数,同时满足一定的约束条件(即可接受的解释空间)。通过分析这种优化过程,论文研究了外部审计员在不同访问权限下检测“挑选”行为的难度。

技术框架:论文的技术框架主要包括以下几个部分:1) 定义可接受的解释空间,该空间由反事实解释的生成过程决定;2) 定义效用函数,用于衡量解释提供者对不同解释的偏好;3) 分析在不同访问权限下(完全程序访问、部分程序访问、仅解释访问)检测“挑选”行为的可能性;4) 通过实验验证检测方法的有效性,并评估“挑选”行为对反事实解释质量的影响。

关键创新:论文最重要的技术创新在于对反事实解释中的“挑选”行为进行了形式化定义,并从优化问题的角度分析了其本质。此外,论文还系统地研究了不同访问权限下检测“挑选”行为的难度,并提出了相应的建议。

关键设计:论文的关键设计包括:1) 可接受解释空间的定义,需要充分考虑反事实解释生成过程的约束;2) 效用函数的选择,需要能够反映解释提供者的偏好;3) 检测方法的选择,需要能够有效利用可用的信息,并在不同访问权限下具有鲁棒性;4) 实验设计,需要能够充分评估检测方法的性能,并揭示“挑选”行为对反事实解释质量的影响。

📊 实验亮点

实验结果表明,即使拥有完全程序访问权限,挑选的解释在统计上也难以与非挑选的解释区分开来。标准反事实质量指标(如接近度、合理性和稀疏性)对“挑选”行为的敏感性较低,使得检测变得困难。这强调了在设计反事实解释算法时,应优先考虑可重复性、标准化和程序约束。

🎯 应用场景

该研究成果可应用于对机器学习模型进行审计和监管的场景,尤其是在金融、医疗等高风险领域。通过识别和防止反事实解释中的“挑选”行为,可以提高模型解释的可信度,确保决策的公平性和透明度,并为算法开发者和解释提供者提供指导。

📄 摘要(原文)

Counterfactual explanations are widely used to communicate how inputs must change for a model to alter its prediction. For a single instance, many valid counterfactuals can exist, which leaves open the possibility for an explanation provider to cherry-pick explanations that better suit a narrative of their choice, highlighting favourable behaviour and withholding examples that reveal problematic behaviour. We formally define cherry-picking for counterfactual explanations in terms of an admissible explanation space, specified by the generation procedure, and a utility function. We then study to what extent an external auditor can detect such manipulation. Considering three levels of access to the explanation process: full procedural access, partial procedural access, and explanation-only access, we show that detection is extremely limited in practice. Even with full procedural access, cherry-picked explanations can remain difficult to distinguish from non cherry-picked explanations, because the multiplicity of valid counterfactuals and flexibility in the explanation specification provide sufficient degrees of freedom to mask deliberate selection. Empirically, we demonstrate that this variability often exceeds the effect of cherry-picking on standard counterfactual quality metrics such as proximity, plausibility, and sparsity, making cherry-picked explanations statistically indistinguishable from baseline explanations. We argue that safeguards should therefore prioritise reproducibility, standardisation, and procedural constraints over post-hoc detection, and we provide recommendations for algorithm developers, explanation providers, and auditors.