Toward Graph-Tokenizing Large Language Models with Reconstructive Graph Instruction Tuning

📄 arXiv: 2603.01385v1 📥 PDF

作者: Zhongjian Zhang, Xiao Wang, Mengmei Zhang, Jiarui Tan, Chuan Shi

分类: cs.CL, cs.AI

发布日期: 2026-03-02

备注: accepted by WWW 2026


💡 一句话要点

提出RGLM,通过重构图指令微调增强图Token化大语言模型中的图文对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 大语言模型 指令微调 图文对齐 图重构 知识图谱 图Token化

📋 核心要点

  1. 现有图Token化LLM依赖文本监督,图文对齐隐式,导致模型偏向文本,未能充分利用图结构信息。
  2. 提出重构图指令微调流程RGLM,通过从LLM输出重构图信息,显式地引入图监督来约束对齐过程。
  3. 实验表明,RGLM在多个基准测试和任务场景中表现出色,验证了其有效性,为图Token化LLM的对齐研究提供了新方向。

📝 摘要(中文)

大型语言模型(LLMs)的成功促使研究人员将其应用于各种图相关任务,旨在开发一个能够泛化多种场景的图基础模型。关键挑战在于将图数据与语言空间对齐,使LLMs更好地理解图。图Token化LLMs(GTokenLLMs)将复杂的结构和长文本编码为图token序列,然后通过语言指令微调将其与文本token对齐。然而,信息论分析表明,现有GTokenLLMs仅依赖于语言指令的文本监督,仅实现隐式的图文对齐,导致文本主导的偏差,未能充分利用图上下文。为了克服这个限制,我们首先证明对齐目标受限于输入图及其在LLM中的隐藏表示之间的互信息,这促使我们提高这个上界以实现更好的对齐。为此,我们进一步提出了一个重构图指令微调流程RGLM。我们的核心思想是从LLM的图token输出中重构图信息,显式地结合图监督来约束对齐过程。在技术上,我们通过探索来自两个互补视角的三个不同的变体来实现RGLM:来自输入空间的RGLM-Decoder;来自潜在空间的RGLM-Similarizer和RGLM-Denoiser。此外,我们从理论上分析了每个变体的对齐有效性。在各种基准和任务场景下进行的大量实验验证了所提出的RGLM的有效性,为GTokenLLMs的对齐研究开辟了新的方向。

🔬 方法详解

问题定义:现有图Token化LLM(GTokenLLM)在处理图数据时,过度依赖文本指令的监督,导致图文对齐不充分,模型更多地关注文本信息而忽略了图结构的内在信息。这限制了模型在图相关任务上的性能,尤其是在需要深入理解图结构的场景下。

核心思路:论文的核心思路是通过引入图重构任务,显式地将图结构信息纳入训练过程。通过迫使模型从其生成的图token中重构原始图,可以有效地增强模型对图结构的理解和利用能力,从而实现更有效的图文对齐。这种方法旨在克服现有方法中存在的文本主导偏差。

技术框架:RGLM包含三个主要变体,分别从输入空间和潜在空间进行图重构。RGLM-Decoder从输入空间出发,直接解码LLM的图token输出以重构原始图。RGLM-Similarizer和RGLM-Denoiser从潜在空间出发,前者通过拉近相似图的表示,后者通过去噪图表示来增强图表示的质量。整个流程通过指令微调的方式进行,利用重构损失来指导模型学习。

关键创新:该论文的关键创新在于提出了重构图指令微调(Reconstructive Graph Instruction Tuning)的概念,并将其应用于图Token化LLM。与以往仅依赖文本监督的方法不同,RGLM显式地引入了图结构的监督信号,从而更有效地对齐了图和文本表示。这种方法能够更好地利用图的上下文信息,提升模型在图相关任务上的性能。

关键设计:RGLM的关键设计包括三个变体:RGLM-Decoder使用解码器网络从图token序列重构图结构;RGLM-Similarizer通过对比学习拉近相似图的表示;RGLM-Denoiser通过添加噪声并训练模型恢复原始图表示。损失函数结合了指令微调的语言损失和图重构损失,以平衡文本和图信息的学习。具体参数设置和网络结构根据不同的变体和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RGLM在多个图相关任务上显著优于现有的GTokenLLM。例如,在知识图谱补全任务上,RGLM相比基线模型取得了显著的性能提升。不同变体RGLM-Decoder、RGLM-Similarizer和RGLM-Denoiser在不同任务上各有优势,验证了重构图指令微调的有效性。实验结果还表明,RGLM能够更好地利用图结构信息,减少文本主导的偏差。

🎯 应用场景

该研究成果可应用于多种图相关的任务,例如知识图谱补全、图分类、节点分类、图生成等。通过提升LLM对图结构的理解能力,可以更好地解决现实世界中涉及复杂关系的建模和推理问题,例如社交网络分析、生物信息学、推荐系统等。未来,该方法有望推动图基础模型的发展,使其能够更好地泛化到不同的图应用场景。

📄 摘要(原文)

The remarkable success of large language models (LLMs) has motivated researchers to adapt them as universal predictors for various graph-related tasks, with the ultimate goal of developing a graph foundation model that generalizes diverse scenarios. The key challenge is to align graph data with language spaces so that LLMs can better comprehend graphs. As a popular paradigm, Graph-Tokenizing LLMs (GTokenLLMs) encode complex structures and lengthy texts into a graph token sequence, and then align them with text tokens via language instructions tuning. Despite their initial success, our information-theoretic analysis reveals that existing GTokenLLMs rely solely on text supervision from language instructions, which achieve only implicit graph-text alignment, resulting in a text-dominant bias that underutilizes graph context. To overcome this limitation, we first prove that the alignment objective is upper-bounded by the mutual information between the input graphs and their hidden representations in the LLM, which motivates us to improve this upper bound to achieve better alignment. To this end, we further propose a reconstructive graph instruction tuning pipeline, RGLM. Our key idea is to reconstruct the graph information from the LLM's graph token outputs, explicitly incorporating graph supervision to constrain the alignment process. Technically, we embody RGLM by exploring three distinct variants from two complementary perspectives: RGLM-Decoder from the input space; RGLM-Similarizer and RGLM-Denoiser from the latent space. Additionally, we theoretically analyze the alignment effectiveness of each variant. Extensive experiments on various benchmarks and task scenarios validate the effectiveness of the proposed RGLM, paving the way for new directions in GTokenLLMs' alignment research.