Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

📄 arXiv: 2604.00917v1 📥 PDF

作者: Razvan Mihai Popescu, David Gros, Andrei Botocan, Rahul Pandita, Prem Devanbu, Maliheh Izadi

分类: cs.SE, cs.AI, cs.LG

发布日期: 2026-04-01

备注: MSR 2026 Technical Track

DOI: 10.1145/3793302.3793354


💡 一句话要点

研究自主编码Agent在开源项目中的贡献:活动模式与代码随时间的变化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主编码Agent 软件开发 代码贡献 Pull Request 代码维护

📋 核心要点

  1. 现有研究缺乏对自主编码Agent在真实软件开发中的长期影响的深入分析,难以评估其贡献的价值和潜在风险。
  2. 通过构建大规模Pull Request数据集,分析Agent在代码贡献、协作模式和代码维护方面的行为特征,揭示其优缺点。
  3. 实验结果表明,Agent在开源项目中日益活跃,但其贡献的代码相比人工编写的代码更容易发生变更和流失。

📝 摘要(中文)

大型语言模型在代码领域的兴起重塑了软件开发。自主编码Agent能够创建分支、发起Pull Request并执行代码审查,它们正积极地为真实项目做出贡献。这种日益增长的角色提供了一个独特且及时的机会,来研究AI驱动的贡献及其对代码质量、团队动态和软件可维护性的影响。本文构建了一个包含约11万个开源Pull Request的新数据集,其中包括相关的提交、评论、审查、问题和文件更改,总共代表数百万行源代码。我们比较了五种流行的编码Agent,包括OpenAI Codex、Claude Code、GitHub Copilot、Google Jules和Devin,考察了它们在合并频率、编辑的文件类型以及包括评论和审查在内的开发者交互信号等不同开发方面的使用差异。此外,我们强调代码编写和审查只是大型软件工程过程的一小部分,因为生成的代码还必须随着时间的推移进行维护和更新。因此,我们提供了Agent生成代码与人工编写代码的生存率和流失率的若干纵向估计。最终,我们的研究结果表明Agent在开源项目中的活动日益增加,尽管与人工编写的代码相比,它们的贡献与随着时间的推移更多的流失相关。

🔬 方法详解

问题定义:论文旨在研究自主编码Agent在真实开源项目中的贡献,并分析其对代码质量、团队协作和软件可维护性的影响。现有方法缺乏对Agent长期行为模式的分析,无法全面评估其贡献的价值和潜在风险。

核心思路:论文的核心思路是通过构建大规模的Pull Request数据集,分析Agent在代码贡献、协作模式和代码维护方面的行为特征,从而揭示其优缺点,并为未来的Agent设计和使用提供指导。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:构建包含11万个开源Pull Request的大规模数据集,涵盖提交、评论、审查、问题和文件更改等信息。2) Agent识别:识别数据集中由不同Agent(OpenAI Codex、Claude Code、GitHub Copilot、Google Jules和Devin)生成的代码。3) 行为分析:分析Agent在合并频率、编辑文件类型、开发者交互信号等方面的行为特征。4) 纵向分析:评估Agent生成代码与人工编写代码的生存率和流失率。

关键创新:论文的关键创新在于构建了一个大规模的、包含丰富信息的Pull Request数据集,并利用该数据集对自主编码Agent的长期行为模式进行了深入分析。此外,论文还首次对Agent生成代码的生存率和流失率进行了评估,为理解Agent对软件可维护性的影响提供了新的视角。

关键设计:论文的关键设计包括:1) 数据集构建:精心设计的数据集包含Pull Request及其相关的提交、评论、审查等信息,能够全面反映Agent的开发行为。2) Agent识别:采用多种方法识别Agent生成的代码,包括分析提交信息、代码风格等。3) 纵向分析:利用生存分析方法评估Agent生成代码的生存率和流失率,从而量化其对软件可维护性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,自主编码Agent在开源项目中日益活跃,但与人工编写的代码相比,Agent生成的代码更容易发生变更和流失。具体而言,Agent生成的代码的流失率显著高于人工编写的代码,这表明Agent在代码质量和可维护性方面仍有提升空间。该研究还分析了不同Agent的行为特征,揭示了它们在代码贡献、协作模式等方面的差异。

🎯 应用场景

该研究成果可应用于软件工程领域,帮助开发者更好地理解和利用自主编码Agent,提高开发效率和代码质量。同时,研究结果也为Agent的设计和改进提供了指导,促进AI在软件开发领域的更广泛应用。此外,该研究也对理解AI对软件开发团队协作模式的影响具有重要意义。

📄 摘要(原文)

The rise of large language models for code has reshaped software development. Autonomous coding agents, able to create branches, open pull requests, and perform code reviews, now actively contribute to real-world projects. Their growing role offers a unique and timely opportunity to investigate AI-driven contributions and their effects on code quality, team dynamics, and software maintainability. In this work, we construct a novel dataset of approximately $110,000$ open-source pull requests, including associated commits, comments, reviews, issues, and file changes, collectively representing millions of lines of source code. We compare five popular coding agents, including OpenAI Codex, Claude Code, GitHub Copilot, Google Jules, and Devin, examining how their usage differs in various development aspects such as merge frequency, edited file types, and developer interaction signals, including comments and reviews. Furthermore, we emphasize that code authoring and review are only a small part of the larger software engineering process, as the resulting code must also be maintained and updated over time. Hence, we offer several longitudinal estimates of survival and churn rates for agent-generated versus human-authored code. Ultimately, our findings indicate an increasing agent activity in open-source projects, although their contributions are associated with more churn over time compared to human-authored code.