DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

作者: Maojun Sun, Yue Wu, Yifei Xie, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-03-05

备注: 24 pages,7 figures, 3 tables

💡 一句话要点

提出DARE，通过分布感知检索对齐LLM Agent与R统计生态系统

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent R语言 统计分析 数据分布 信息检索

📋 核心要点

现有方法在R包检索中侧重函数语义，忽略数据分布，导致LLM Agent无法有效利用R统计生态。
DARE模型融合数据分布特征与函数元数据，提升R包检索相关性，实现分布感知的检索嵌入。
DARE在R包检索上超越现有模型高达17%，集成到RCodingAgent后，下游分析任务性能显著提升。

📝 摘要（中文）

大型语言模型(LLM) Agent可以自动化数据科学工作流程，但由于LLM在统计知识和工具检索方面存在困难，R中实现的许多严格的统计方法仍未得到充分利用。现有的检索增强方法侧重于函数级别的语义，忽略了数据分布，导致匹配效果不佳。我们提出了DARE（Distribution-Aware Retrieval Embedding），一个轻量级的、即插即用的检索模型，它将数据分布信息融入到函数表示中，以改进R包的检索。我们的主要贡献是：（i）RPKB，一个从8,191个高质量CRAN包中提取的R包知识库；（ii）DARE，一个融合了分布特征和函数元数据的嵌入模型，以提高检索相关性；（iii）RCodingAgent，一个面向R的LLM Agent，用于可靠的R代码生成，以及一套统计分析任务，用于在实际分析场景中系统地评估LLM Agent。实验结果表明，DARE在包检索上的NDCG@10达到了93.47%，优于最先进的开源嵌入模型高达17%，同时使用的参数明显更少。将DARE集成到RCodingAgent中，在下游分析任务中产生了显著的收益。这项工作有助于缩小LLM自动化和成熟的R统计生态系统之间的差距。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在数据科学工作流程中，由于缺乏对R统计生态系统中数据分布的理解，导致无法有效检索和利用R包的问题。现有方法主要关注函数级别的语义信息，忽略了数据分布的重要性，使得检索结果与实际需求不匹配，阻碍了LLM Agent在统计分析任务中的应用。

核心思路：论文的核心思路是将数据分布信息融入到R包函数的表示中，从而使LLM Agent能够更好地理解函数的功能和适用场景。通过构建分布感知的检索嵌入（Distribution-Aware Retrieval Embedding, DARE），模型能够根据数据分布特征进行更精确的R包检索，提高检索结果的相关性和实用性。

技术框架：整体框架包含三个主要组成部分：(1) R Package Knowledge Base (RPKB) 的构建，从CRAN包中提取函数元数据和数据分布信息；(2) DARE模型的训练，融合函数元数据和数据分布特征，生成R包函数的嵌入表示；(3) RCodingAgent的集成，将DARE模型应用于R代码生成和统计分析任务，评估其性能。

关键创新：论文的关键创新在于提出了分布感知的检索嵌入（DARE）。与现有方法仅关注函数语义不同，DARE模型显式地考虑了数据分布信息，从而能够更准确地匹配R包函数与用户的需求。这种方法能够有效提升LLM Agent在统计分析任务中的性能。

关键设计：DARE模型的设计关键在于如何有效地融合函数元数据和数据分布特征。具体来说，论文可能采用了某种神经网络结构（例如，Transformer或图神经网络）来学习R包函数的嵌入表示，并设计了特定的损失函数来鼓励模型学习数据分布信息。此外，RPKB的构建也至关重要，需要仔细选择和处理CRAN包中的数据，以确保知识库的质量和完整性。

🖼️ 关键图片

📊 实验亮点

DARE模型在R包检索任务中取得了显著的性能提升，NDCG@10指标达到了93.47%，超越了现有最先进的开源嵌入模型高达17%。此外，将DARE集成到RCodingAgent中，在下游统计分析任务中也观察到了明显的性能提升，验证了DARE模型的有效性和实用性。

🎯 应用场景

该研究成果可应用于自动化数据科学工作流程、智能统计分析助手、以及R语言学习和开发工具等领域。通过提升LLM Agent对R统计生态系统的理解和利用能力，可以显著提高数据分析的效率和质量，降低数据科学的门槛，并促进R语言在更广泛领域的应用。

📄 摘要（原文）

Large Language Model (LLM) agents can automate data-science workflows, but many rigorous statistical methods implemented in R remain underused because LLMs struggle with statistical knowledge and tool retrieval. Existing retrieval-augmented approaches focus on function-level semantics and ignore data distribution, producing suboptimal matches. We propose DARE (Distribution-Aware Retrieval Embedding), a lightweight, plug-and-play retrieval model that incorporates data distribution information into function representations for R package retrieval. Our main contributions are: (i) RPKB, a curated R Package Knowledge Base derived from 8,191 high-quality CRAN packages; (ii) DARE, an embedding model that fuses distributional features with function metadata to improve retrieval relevance; and (iii) RCodingAgent, an R-oriented LLM agent for reliable R code generation and a suite of statistical analysis tasks for systematically evaluating LLM agents in realistic analytical scenarios. Empirically, DARE achieves an NDCG at 10 of 93.47%, outperforming state-of-the-art open-source embedding models by up to 17% on package retrieval while using substantially fewer parameters. Integrating DARE into RCodingAgent yields significant gains on downstream analysis tasks. This work helps narrow the gap between LLM automation and the mature R statistical ecosystem.

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理