VISTA: Visualization of Token Attribution via Efficient Analysis

📄 arXiv: 2604.02217v1 📥 PDF

作者: Syed Ahmed, Bharathi Vokkaliga Ganesh, Jagadish Babu P, Karthick Selvaraj, Praneeth Talluri, Sanket Hingne, Anubhav Kumar, Anushka Yadav, Pratham Kumar Verma, Kiranmayee Janardhan, Mandanna A N

分类: cs.AI, cs.CL

发布日期: 2026-04-02

备注: 12 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

VISTA:提出一种高效分析的Token归因可视化方法,用于理解LLM的信息处理方式。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 注意力可视化 Token归因 模型无关 扰动分析 语义分析

📋 核心要点

  1. 现有注意力可视化技术通常针对特定Transformer架构,且依赖反向传播,导致计算成本高昂和内存占用增加。
  2. VISTA提出一种模型无关的token重要性可视化方法,通过扰动策略和三矩阵分析框架,无需额外计算成本即可理解LLM的信息处理。
  3. 该方法通过角度偏差、幅度偏差和维度重要性矩阵,系统性地评估token对模型预测的贡献,并提供开源实现。

📝 摘要(中文)

理解大型语言模型(LLM)如何处理来自提示的信息仍然是一个重大挑战。为了揭示这个“黑盒”,已经开发了注意力可视化技术来捕获神经元级别的感知,并解释模型如何关注输入数据的不同部分。然而,许多现有技术都是针对特定的模型架构量身定制的,尤其是在Transformer系列中,并且通常需要反向传播,导致GPU内存使用量几乎翻倍,并增加了计算成本。仍然缺乏一种轻量级的、模型无关的注意力可视化方法。在本文中,我们介绍了一种模型无关的token重要性可视化技术,以更好地理解生成式AI系统如何感知和优先处理来自输入文本的信息,而不会产生额外的计算成本。我们的方法利用基于扰动的策略,结合三矩阵分析框架来生成相关性图,该图说明了token级别对模型预测的贡献。该框架包括:(1)角度偏差矩阵,它捕获语义方向的变化;(2)幅度偏差矩阵,它测量语义强度的变化;(3)维度重要性矩阵,它评估各个向量维度上的贡献。通过系统地移除每个token并测量其对这三个互补维度的影响,我们得出一个综合重要性得分,该得分提供了token重要性的细致且数学上合理的度量。为了支持可重复性并促进更广泛的采用,我们提供了所有提出的和使用的可解释性技术的开源实现,代码和资源可在https://github.com/Infosys/Infosys-Responsible-AI-Toolkit公开获得。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)可解释性方法,特别是注意力可视化技术,通常与特定的模型架构绑定,例如Transformer。这些方法往往需要进行反向传播,这显著增加了计算成本和GPU内存的使用量,使得它们在资源受限的环境中难以应用。因此,缺乏一种轻量级、模型无关的方法来理解LLM如何处理和优先处理输入文本中的不同token。

核心思路:VISTA的核心思路是通过扰动输入文本中的每个token,并分析这种扰动对模型输出的影响,从而确定每个token的重要性。该方法不依赖于模型的内部结构或梯度信息,因此具有模型无关性。通过量化token移除后语义方向、强度和维度上的变化,VISTA能够提供对token重要性的细致且数学上合理的度量。

技术框架:VISTA的技术框架包含以下几个主要步骤: 1. Token扰动:系统地移除输入文本中的每个token。 2. 语义变化分析:使用三个矩阵来量化token移除对模型输出的影响: * 角度偏差矩阵 (Angular Deviation Matrix):捕捉语义方向的变化。 * 幅度偏差矩阵 (Magnitude Deviation Matrix):测量语义强度的变化。 * 维度重要性矩阵 (Dimensional Importance Matrix):评估各个向量维度上的贡献。 3. 重要性评分:将三个矩阵的信息组合成一个综合的重要性得分,该得分反映了每个token对模型预测的贡献。

关键创新:VISTA的关键创新在于其模型无关性和高效性。与依赖模型内部结构和反向传播的方法不同,VISTA仅通过扰动输入文本并分析输出变化来确定token的重要性。这种方法避免了额外的计算成本和内存占用,使其适用于各种LLM。

关键设计:VISTA的关键设计包括: * 扰动策略:通过移除单个token来模拟其缺失,从而评估其对模型输出的影响。 * 三矩阵分析框架:使用角度偏差、幅度偏差和维度重要性矩阵来全面捕捉语义变化。 * 综合重要性评分:将三个矩阵的信息组合成一个单一的、易于解释的重要性得分。

📊 实验亮点

VISTA是一种模型无关的方法,无需反向传播,显著降低了计算成本和内存占用。通过三矩阵分析框架,VISTA能够提供对token重要性的细致且数学上合理的度量。开源实现促进了该方法在不同LLM和应用场景中的广泛应用和进一步研究。

🎯 应用场景

VISTA可应用于多种场景,例如:提高LLM的可解释性,帮助用户理解模型决策过程;调试和优化LLM,识别影响模型性能的关键token;检测和缓解LLM中的偏见,识别导致不公平或歧视性输出的token;教育和研究,促进对LLM内部机制的理解。该研究有助于构建更可靠、可信赖和负责任的AI系统。

📄 摘要(原文)

Understanding how Large Language Models (LLMs) process information from prompts remains a significant challenge. To shed light on this "black box," attention visualization techniques have been developed to capture neuron-level perceptions and interpret how models focus on different parts of input data. However, many existing techniques are tailored to specific model architectures, particularly within the Transformer family, and often require backpropagation, resulting in nearly double the GPU memory usage and increased computational cost. A lightweight, model-agnostic approach for attention visualization remains lacking. In this paper, we introduce a model-agnostic token importance visualization technique to better understand how generative AI systems perceive and prioritize information from input text, without incurring additional computational cost. Our method leverages perturbation-based strategies combined with a three-matrix analytical framework to generate relevance maps that illustrate token-level contributions to model predictions. The framework comprises: (1) the Angular Deviation Matrix, which captures shifts in semantic direction; (2) the Magnitude Deviation Matrix, which measures changes in semantic intensity; and (3) the Dimensional Importance Matrix, which evaluates contributions across individual vector dimensions. By systematically removing each token and measuring the resulting impact across these three complementary dimensions, we derive a composite importance score that provides a nuanced and mathematically grounded measure of token significance. To support reproducibility and foster wider adoption, we provide open-source implementations of all proposed and utilized explainability techniques, with code and resources publicly available at https://github.com/Infosys/Infosys-Responsible-AI-Toolkit