Relational In-Context Learning via Synthetic Pre-training with Structural Prior
作者: Yanbo Wang, Jiaxuan You, Chuan Shi, Muhan Zhang
分类: cs.LG, cs.AI, cs.DB
发布日期: 2026-03-04
🔗 代码/项目: GITHUB
💡 一句话要点
提出RDB-PFN,通过合成数据预训练实现关系数据库的上下文学习。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关系数据库 基础模型 合成数据 预训练 上下文学习 关系推理 结构因果模型
📋 核心要点
- 高质量关系数据库的稀缺性和结构异构性阻碍了关系数据库领域基础模型的训练。
- RDB-PFN通过关系先验生成器创建无限的合成关系数据库流,进行大规模预训练。
- 实验表明,RDB-PFN在真实关系预测任务上表现出色,优于现有图模型和单表模型。
📝 摘要(中文)
关系数据库(RDBs)是现代商业的基石,但缺乏像文本或视觉领域那样的基础模型。一个关键障碍是高质量的RDB是私有的、稀缺的且结构异构的,这使得互联网规模的预训练不可行。为了克服这种数据稀缺性,我们引入了RDB-PFN,这是第一个完全通过合成数据训练的关系基础模型。受到Prior-Data Fitted Networks (PFNs)的启发,其中从结构因果模型(SCMs)生成的合成数据能够对单个表进行推理,我们设计了一个关系先验生成器,从头开始创建无限的各种RDB流。通过在超过200万个合成单表和关系任务上进行预训练,RDB-PFN学会通过真正的上下文学习立即适应任何新数据库。实验验证了RDB-PFN在19个真实关系预测任务上实现了强大的少样本性能,优于基于图和单表基础模型的基线(给定相同的DFS线性化输入),同时使用轻量级架构和快速推理。代码可在https://github.com/MuLabPKU/RDBPFN 获得。
🔬 方法详解
问题定义:现有关系数据库缺乏像NLP和CV领域那样强大的基础模型,主要原因是高质量的关系数据库通常是私有的、稀缺的,并且结构异构,难以进行大规模预训练。这限制了模型在新的、未见过的数据库上的泛化能力。
核心思路:该论文的核心思路是通过合成数据来解决关系数据库数据稀缺的问题。借鉴Prior-Data Fitted Networks (PFNs)的思想,利用结构因果模型(SCMs)生成无限的、多样化的关系数据库,从而进行大规模的预训练。通过这种方式,模型可以学习到关系数据的通用模式和推理能力。
技术框架:RDB-PFN的整体框架包括两个主要部分:关系先验生成器和预训练模型。关系先验生成器负责生成合成的关系数据库,包括单表和多表数据。预训练模型则在这些合成数据上进行训练,学习关系推理的能力。在推理阶段,模型通过上下文学习的方式,快速适应新的数据库。
关键创新:该论文的关键创新在于提出了一个关系先验生成器,能够从头开始生成无限的、多样化的关系数据库。这克服了真实关系数据库数据稀缺的问题,使得大规模预训练成为可能。此外,RDB-PFN通过上下文学习的方式,能够快速适应新的数据库,而无需进行额外的微调。
关键设计:关系先验生成器的设计需要考虑生成数据的多样性和真实性。具体的生成过程可能涉及到对关系模式、数据分布、以及表间关系的建模。预训练模型的选择可能基于Transformer架构,并针对关系数据的特点进行优化。损失函数的设计需要能够鼓励模型学习到关系推理的能力,例如,通过预测表间关系或执行SQL查询等任务。
🖼️ 关键图片
📊 实验亮点
RDB-PFN在19个真实关系预测任务上取得了显著的性能提升,优于现有的基于图和单表的基础模型。实验结果表明,RDB-PFN能够有效地学习关系数据的通用模式,并通过上下文学习快速适应新的数据库。在相同的DFS线性化输入下,RDB-PFN展现出了更强的泛化能力和推理能力。
🎯 应用场景
RDB-PFN在企业数据分析、智能报表生成、数据库查询优化等领域具有广泛的应用前景。它可以帮助用户快速理解和利用新的数据库,提高数据分析的效率和准确性。此外,该方法还可以应用于数据集成、数据治理等领域,促进企业数据的标准化和规范化。
📄 摘要(原文)
Relational Databases (RDBs) are the backbone of modern business, yet they lack foundation models comparable to those in text or vision. A key obstacle is that high-quality RDBs are private, scarce and structurally heterogeneous, making internet-scale pre-training infeasible. To overcome this data scarcity, We introduce $\textbf{RDB-PFN}$, the first relational foundation model trained purely via $\textbf{synthetic data}$. Inspired by Prior-Data Fitted Networks (PFNs) where synthetic data generated from Structural Causal Models (SCMs) enables reasoning on single tables, we design a $\textbf{Relational Prior Generator}$ to create an infinite stream of diverse RDBs from scratch. Pre-training on $\textbf{over 2 million}$ synthetic single-table and relational tasks, RDB-PFN learns to adapt to any new database instantly via genuine $\textbf{in-context learning}$. Experiments verify RDB-PFN achieves strong few-shot performance on 19 real-world relational prediction tasks, outperforming graph-based and single-table foundation-model baselines (given the same DFS-linearized inputs), while using a lightweight architecture and fast inference. The code is available at https://github.com/MuLabPKU/RDBPFN