T-Retriever: Tree-based Hierarchical Retrieval Augmented Generation for Textual Graphs

📄 arXiv: 2601.04945v1 📥 PDF

作者: Chunyu Wei, Huaiyu Qin, Siyuan He, Yunhai Wang, Yueguo Chen

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

T-Retriever:提出基于树形结构的层级检索增强生成框架,用于处理文本图推理任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图检索 检索增强生成 知识图谱 层级结构 自适应压缩 语义结构熵 图推理 大型语言模型

📋 核心要点

  1. 现有图RAG方法在处理层级信息时,存在压缩配额僵化和忽略语义内容的问题。
  2. T-Retriever通过构建语义和结构引导的编码树,将属性图检索转化为树形检索。
  3. 实验结果表明,T-Retriever在图推理任务上显著优于现有RAG方法,提升了响应的连贯性和相关性。

📝 摘要(中文)

检索增强生成(RAG)显著提升了大型语言模型访问外部知识的能力。然而,现有的基于图的RAG方法在管理层级信息时面临两个关键限制:它们施加了严格的层特定压缩配额,损害了局部图结构;并且它们优先考虑拓扑结构而忽略了语义内容。我们提出了T-Retriever,一种新颖的框架,它使用语义和结构引导的编码树将属性图检索重新定义为基于树的检索。我们的方法包含两个关键创新:(1)自适应压缩编码,它用全局优化策略取代了人工压缩配额,保留了图的自然层级组织;(2)语义-结构熵($S^2$-Entropy),它在创建层级分区时联合优化结构内聚性和语义一致性。在各种图推理基准上的实验表明,T-Retriever显著优于最先进的RAG方法,为复杂查询提供更连贯和上下文相关的响应。

🔬 方法详解

问题定义:现有基于图的RAG方法在处理具有层级结构的图数据时,面临两个主要问题。一是,为了控制检索范围,通常对每一层施加固定的压缩配额,这会破坏局部图结构,导致信息损失。二是,现有方法通常只关注图的拓扑结构,而忽略了节点和边的语义信息,导致检索结果与查询的相关性不高。

核心思路:T-Retriever的核心思路是将属性图转换为一个编码树,利用树的层级结构来表示图的层级关系。通过自适应地压缩树的节点,保留重要的语义和结构信息,从而实现更有效的图检索。这种方法旨在克服现有方法中固定压缩配额和忽略语义信息的缺点。

技术框架:T-Retriever框架主要包含以下几个阶段:1. 图编码:将输入的属性图转换为节点和边的嵌入表示。2. 编码树构建:基于节点和边的嵌入,构建一个层级的编码树,树的每个节点代表图的一个子图。3. 自适应压缩编码:使用全局优化策略,自适应地压缩编码树的节点,保留重要的语义和结构信息。4. 检索:根据查询,在编码树中进行检索,找到相关的子图。5. 生成:使用大型语言模型,基于检索到的子图生成答案。

关键创新:T-Retriever的关键创新在于两个方面:一是自适应压缩编码,它使用全局优化策略取代了人工压缩配额,能够更好地保留图的自然层级组织。二是语义-结构熵($S^2$-Entropy),它在创建层级分区时,联合优化结构内聚性和语义一致性,从而保证了编码树的质量。

关键设计:$S^2$-Entropy是T-Retriever的关键设计之一。它被定义为结构熵和语义熵的加权和。结构熵衡量子图的结构内聚性,语义熵衡量子图的语义一致性。通过调整结构熵和语义熵的权重,可以控制编码树的结构和语义特性。此外,自适应压缩编码使用了一种基于梯度下降的优化算法,以最小化信息损失为目标,动态地调整每个节点的压缩率。

📊 实验亮点

实验结果表明,T-Retriever在多个图推理基准测试中显著优于现有的RAG方法。例如,在某些数据集上,T-Retriever的性能提升超过10%。此外,消融实验验证了自适应压缩编码和语义-结构熵的有效性,证明了T-Retriever的创新设计的价值。

🎯 应用场景

T-Retriever在知识图谱问答、科学文献检索、社交网络分析等领域具有广泛的应用前景。它可以帮助用户更有效地从复杂的图数据中获取信息,并为下游任务提供更准确的上下文信息,例如提升聊天机器人在特定领域的问答能力,或辅助科研人员进行文献综述。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has significantly enhanced Large Language Models' ability to access external knowledge, yet current graph-based RAG approaches face two critical limitations in managing hierarchical information: they impose rigid layer-specific compression quotas that damage local graph structures, and they prioritize topological structure while neglecting semantic content. We introduce T-Retriever, a novel framework that reformulates attributed graph retrieval as tree-based retrieval using a semantic and structure-guided encoding tree. Our approach features two key innovations: (1) Adaptive Compression Encoding, which replaces artificial compression quotas with a global optimization strategy that preserves the graph's natural hierarchical organization, and (2) Semantic-Structural Entropy ($S^2$-Entropy), which jointly optimizes for both structural cohesion and semantic consistency when creating hierarchical partitions. Experiments across diverse graph reasoning benchmarks demonstrate that T-Retriever significantly outperforms state-of-the-art RAG methods, providing more coherent and contextually relevant responses to complex queries.