Behavioral Fingerprinting of Large Language Models

📄 arXiv: 2509.04504v1 📥 PDF

作者: Zehua Pei, Hui-Ling Zhen, Ying Zhang, Zhiyuan Yang, Xing Li, Xianzhi Yu, Mingxuan Yuan, Bei Yu

分类: cs.CL, cs.AI

发布日期: 2025-09-02

备注: Submitted to 1st Open Conference on AI Agents for Science (agents4science 2025)

🔗 代码/项目: GITHUB


💡 一句话要点

提出大语言模型行为指纹框架,揭示模型对齐策略差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 行为指纹 对齐策略 自动化评估 诊断提示

📋 核心要点

  1. 现有LLM评测侧重性能指标,忽略了区分模型行为特征的细微差别。
  2. 提出“行为指纹”框架,通过诊断提示和LLM裁判,刻画模型认知和交互风格。
  3. 实验揭示模型核心能力趋同,但对齐行为差异大,交互本质受开发者对齐策略影响。

📝 摘要(中文)

本文提出了一种新颖的“行为指纹”框架,旨在超越传统性能指标,构建多方面模型画像,刻画大语言模型(LLM)内在的认知和交互风格。通过精心设计的“诊断提示套件”和一个创新的自动化评估流程(其中强大的LLM充当公正的评判者),我们分析了十八个不同能力级别的模型。结果表明,LLM领域存在关键差异:尽管抽象和因果推理等核心能力在顶级模型中趋于收敛,但与对齐相关的行为(如谄媚和语义鲁棒性)差异显著。我们进一步记录了一种跨模型的默认人格聚类(ISTJ/ESTJ),这可能反映了常见的对齐激励。总而言之,这表明模型的交互本质不是其规模或推理能力的涌现属性,而是特定且高度可变的开发者对齐策略的直接结果。我们的框架为揭示这些深层次的行为差异提供了一种可重复且可扩展的方法。

🔬 方法详解

问题定义:现有的大语言模型评测主要集中在性能指标上,例如准确率、召回率等。然而,这些指标无法捕捉模型在交互行为上的细微差异,例如模型是否容易受到对抗性攻击、是否会谄媚用户等。因此,需要一种新的方法来全面评估LLM的行为特征,从而更好地理解不同模型的优缺点。

核心思路:本文的核心思路是通过设计一系列诊断性的提示(Diagnostic Prompt Suite),并利用一个强大的LLM作为裁判,来自动化地评估不同LLM的行为。这种方法可以有效地捕捉模型在不同场景下的行为模式,从而构建一个多方面的“行为指纹”。

技术框架:该框架主要包含两个部分:诊断提示套件和自动化评估流程。诊断提示套件包含一系列精心设计的提示,用于测试模型的不同行为特征,例如抽象推理、因果推理、语义鲁棒性、谄媚等。自动化评估流程利用一个强大的LLM作为裁判,对模型的输出进行评估,并生成相应的行为指标。整个流程是自动化的,可以方便地扩展到更多的模型和行为特征。

关键创新:该论文的关键创新在于提出了“行为指纹”的概念,并设计了一个自动化评估框架来实现这一概念。与传统的性能评估方法相比,该方法可以更全面地评估LLM的行为特征,从而更好地理解不同模型的优缺点。此外,利用LLM作为裁判也是一个创新点,可以有效地降低人工评估的成本。

关键设计:诊断提示套件的设计是关键。提示的设计需要考虑到不同行为特征的特点,并尽可能地减少偏差。例如,在测试语义鲁棒性时,需要设计一些包含细微语义变化的提示,以观察模型是否能够正确理解。此外,LLM裁判的选择也很重要,需要选择一个能力足够强、且具有公正性的模型。

📊 实验亮点

实验结果表明,尽管顶级LLM在核心能力上趋于收敛,但在对齐相关的行为上差异显著。例如,不同模型在谄媚和语义鲁棒性方面的表现差异很大。此外,研究还发现,许多模型都表现出ISTJ/ESTJ的人格特征,这可能反映了开发者在对齐过程中使用的常见激励策略。

🎯 应用场景

该研究成果可应用于LLM的安全性评估、对齐策略优化和模型选择。通过行为指纹,可以更全面地了解LLM的潜在风险,例如容易受到对抗性攻击或产生有害内容。此外,该框架可以帮助开发者优化对齐策略,从而使模型更好地符合人类价值观。用户也可以根据行为指纹选择更适合自己需求的LLM。

📄 摘要(原文)

Current benchmarks for Large Language Models (LLMs) primarily focus on performance metrics, often failing to capture the nuanced behavioral characteristics that differentiate them. This paper introduces a novel ``Behavioral Fingerprinting'' framework designed to move beyond traditional evaluation by creating a multi-faceted profile of a model's intrinsic cognitive and interactive styles. Using a curated \textit{Diagnostic Prompt Suite} and an innovative, automated evaluation pipeline where a powerful LLM acts as an impartial judge, we analyze eighteen models across capability tiers. Our results reveal a critical divergence in the LLM landscape: while core capabilities like abstract and causal reasoning are converging among top models, alignment-related behaviors such as sycophancy and semantic robustness vary dramatically. We further document a cross-model default persona clustering (ISTJ/ESTJ) that likely reflects common alignment incentives. Taken together, this suggests that a model's interactive nature is not an emergent property of its scale or reasoning power, but a direct consequence of specific, and highly variable, developer alignment strategies. Our framework provides a reproducible and scalable methodology for uncovering these deep behavioral differences. Project: https://github.com/JarvisPei/Behavioral-Fingerprinting