DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval
作者: Maojun Sun, Yue Wu, Yifei Xie, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang
分类: cs.IR, cs.AI, cs.CL
发布日期: 2026-03-05
备注: 24 pages,7 figures, 3 tables
💡 一句话要点
提出DARE,通过分布感知检索对齐LLM Agent与R统计生态系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent R语言 统计分析 数据分布 信息检索
📋 核心要点
- 现有方法在R包检索中侧重函数语义,忽略数据分布,导致LLM Agent无法有效利用R统计生态。
- DARE模型融合数据分布特征与函数元数据,提升R包检索相关性,实现分布感知的检索嵌入。
- DARE在R包检索上超越现有模型高达17%,集成到RCodingAgent后,下游分析任务性能显著提升。
📝 摘要(中文)
大型语言模型(LLM) Agent可以自动化数据科学工作流程,但由于LLM在统计知识和工具检索方面存在困难,R中实现的许多严格的统计方法仍未得到充分利用。现有的检索增强方法侧重于函数级别的语义,忽略了数据分布,导致匹配效果不佳。我们提出了DARE(Distribution-Aware Retrieval Embedding),一个轻量级的、即插即用的检索模型,它将数据分布信息融入到函数表示中,以改进R包的检索。我们的主要贡献是:(i)RPKB,一个从8,191个高质量CRAN包中提取的R包知识库;(ii)DARE,一个融合了分布特征和函数元数据的嵌入模型,以提高检索相关性;(iii)RCodingAgent,一个面向R的LLM Agent,用于可靠的R代码生成,以及一套统计分析任务,用于在实际分析场景中系统地评估LLM Agent。实验结果表明,DARE在包检索上的NDCG@10达到了93.47%,优于最先进的开源嵌入模型高达17%,同时使用的参数明显更少。将DARE集成到RCodingAgent中,在下游分析任务中产生了显著的收益。这项工作有助于缩小LLM自动化和成熟的R统计生态系统之间的差距。
🔬 方法详解
问题定义:论文旨在解决LLM Agent在数据科学工作流程中,由于缺乏对R统计生态系统中数据分布的理解,导致无法有效检索和利用R包的问题。现有方法主要关注函数级别的语义信息,忽略了数据分布的重要性,使得检索结果与实际需求不匹配,阻碍了LLM Agent在统计分析任务中的应用。
核心思路:论文的核心思路是将数据分布信息融入到R包函数的表示中,从而使LLM Agent能够更好地理解函数的功能和适用场景。通过构建分布感知的检索嵌入(Distribution-Aware Retrieval Embedding, DARE),模型能够根据数据分布特征进行更精确的R包检索,提高检索结果的相关性和实用性。
技术框架:整体框架包含三个主要组成部分:(1) R Package Knowledge Base (RPKB) 的构建,从CRAN包中提取函数元数据和数据分布信息;(2) DARE模型的训练,融合函数元数据和数据分布特征,生成R包函数的嵌入表示;(3) RCodingAgent的集成,将DARE模型应用于R代码生成和统计分析任务,评估其性能。
关键创新:论文的关键创新在于提出了分布感知的检索嵌入(DARE)。与现有方法仅关注函数语义不同,DARE模型显式地考虑了数据分布信息,从而能够更准确地匹配R包函数与用户的需求。这种方法能够有效提升LLM Agent在统计分析任务中的性能。
关键设计:DARE模型的设计关键在于如何有效地融合函数元数据和数据分布特征。具体来说,论文可能采用了某种神经网络结构(例如,Transformer或图神经网络)来学习R包函数的嵌入表示,并设计了特定的损失函数来鼓励模型学习数据分布信息。此外,RPKB的构建也至关重要,需要仔细选择和处理CRAN包中的数据,以确保知识库的质量和完整性。
🖼️ 关键图片
📊 实验亮点
DARE模型在R包检索任务中取得了显著的性能提升,NDCG@10指标达到了93.47%,超越了现有最先进的开源嵌入模型高达17%。此外,将DARE集成到RCodingAgent中,在下游统计分析任务中也观察到了明显的性能提升,验证了DARE模型的有效性和实用性。
🎯 应用场景
该研究成果可应用于自动化数据科学工作流程、智能统计分析助手、以及R语言学习和开发工具等领域。通过提升LLM Agent对R统计生态系统的理解和利用能力,可以显著提高数据分析的效率和质量,降低数据科学的门槛,并促进R语言在更广泛领域的应用。
📄 摘要(原文)
Large Language Model (LLM) agents can automate data-science workflows, but many rigorous statistical methods implemented in R remain underused because LLMs struggle with statistical knowledge and tool retrieval. Existing retrieval-augmented approaches focus on function-level semantics and ignore data distribution, producing suboptimal matches. We propose DARE (Distribution-Aware Retrieval Embedding), a lightweight, plug-and-play retrieval model that incorporates data distribution information into function representations for R package retrieval. Our main contributions are: (i) RPKB, a curated R Package Knowledge Base derived from 8,191 high-quality CRAN packages; (ii) DARE, an embedding model that fuses distributional features with function metadata to improve retrieval relevance; and (iii) RCodingAgent, an R-oriented LLM agent for reliable R code generation and a suite of statistical analysis tasks for systematically evaluating LLM agents in realistic analytical scenarios. Empirically, DARE achieves an NDCG at 10 of 93.47%, outperforming state-of-the-art open-source embedding models by up to 17% on package retrieval while using substantially fewer parameters. Integrating DARE into RCodingAgent yields significant gains on downstream analysis tasks. This work helps narrow the gap between LLM automation and the mature R statistical ecosystem.