From Internal Representations to Text Quality: A Geometric Approach to LLM Evaluation
作者: Viacheslav Yusupov, Danil Maksimov, Ameliia Alaeva, Anna Vasileva, Anna Antipina, Tatyana Zaitseva, Alina Ermilova, Evgeny Burnaev, Egor Shvetsov
分类: cs.CL, cs.AI
发布日期: 2025-09-29
💡 一句话要点
利用内部表征几何特性评估LLM文本质量,实现无参考文本质量评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本质量评估 内部表征 几何特性 内在维度
📋 核心要点
- 现有文本质量评估方法依赖人工标注或参考文本,成本高昂且难以自动化。
- 本文提出利用LLM内部表征的几何特性(如内在维度和有效秩)来评估文本质量。
- 实验表明,这些几何指标能有效反映文本质量,且与模型无关,可实现无参考评估。
📝 摘要(中文)
本文通过连接大型语言模型(LLM)的内部和外部分析方法,证明了内部模型表征的几何属性可以作为评估生成文本质量的可靠代理。我们验证了一系列指标,包括最大可解释方差、有效秩、内在维度、MAUVE分数和Schatten范数,这些指标是在LLM的不同层上测量的。结果表明,内在维度和有效秩可以作为文本自然度和质量的通用评估指标。我们的关键发现揭示了,不同的模型基于这些几何属性对来自各种来源的文本进行一致的排序,表明这些指标反映了固有的文本特征,而不是模型特定的伪像。这使得无需人工标注数据集的无参考文本质量评估成为可能,为自动化评估流程提供了实际优势。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)文本质量评估方法通常依赖于人工标注的数据集或需要参考文本进行对比,这导致评估过程成本高昂、耗时,并且难以自动化。现有的基于模型的评估方法也可能受到模型自身偏差的影响,无法准确反映文本的内在质量。
核心思路:本文的核心思路是利用LLM内部表征的几何特性来评估文本质量。作者认为,高质量的文本在LLM内部会产生更具结构化和可解释的表征,而这些表征的几何属性(如内在维度和有效秩)可以量化文本的自然度和质量。通过分析这些几何属性,可以实现无需参考文本或人工标注的文本质量评估。
技术框架:该方法主要包含以下几个阶段:1) 使用LLM对文本进行编码,获得不同层的内部表征;2) 计算这些表征的几何属性,包括最大可解释方差、有效秩、内在维度、MAUVE分数和Schatten范数等;3) 基于这些几何属性对文本质量进行评估和排序。整体流程无需外部参考或人工干预,可以实现自动化评估。
关键创新:该方法最重要的技术创新点在于将LLM的内部表征与文本质量联系起来,并利用几何属性作为文本质量的代理指标。与传统的基于外部比较的评估方法不同,该方法关注文本在模型内部的固有属性,从而避免了对参考文本或人工标注的依赖。此外,该方法发现内在维度和有效秩是评估文本质量的通用指标,具有较强的泛化能力。
关键设计:论文中关键的设计包括:1) 选择合适的LLM作为编码器;2) 选择合适的几何属性作为评估指标,重点关注内在维度和有效秩;3) 设计实验验证这些几何属性与文本质量之间的相关性,并与其他评估方法进行比较。具体的参数设置和网络结构取决于所使用的LLM,但核心思想是利用LLM的内部表征来反映文本的内在质量。
📊 实验亮点
实验结果表明,内在维度和有效秩可以作为评估文本自然度和质量的通用指标。不同的模型基于这些几何属性对来自各种来源的文本进行一致的排序,表明这些指标反映了固有的文本特征,而不是模型特定的伪像。该方法在无需人工标注数据集的情况下,实现了对文本质量的有效评估。
🎯 应用场景
该研究成果可广泛应用于自动化文本质量评估、LLM生成文本的质量监控、文本生成模型的优化和改进等方面。例如,可以用于大规模文本数据集的筛选和清洗,提高训练数据的质量;也可以用于评估不同LLM生成文本的质量,选择更合适的模型;还可以用于优化文本生成模型的训练目标,提高生成文本的质量和自然度。
📄 摘要(原文)
This paper bridges internal and external analysis approaches to large language models (LLMs) by demonstrating that geometric properties of internal model representations serve as reliable proxies for evaluating generated text quality. We validate a set of metrics including Maximum Explainable Variance, Effective Rank, Intrinsic Dimensionality, MAUVE score, and Schatten Norms measured across different layers of LLMs, demonstrating that Intrinsic Dimensionality and Effective Rank can serve as universal assessments of text naturalness and quality. Our key finding reveals that different models consistently rank text from various sources in the same order based on these geometric properties, indicating that these metrics reflect inherent text characteristics rather than model-specific artifacts. This allows a reference-free text quality evaluation that does not require human-annotated datasets, offering practical advantages for automated evaluation pipelines.