Vibe Coding, Interface Flattening

📄 arXiv: 2512.24939v1 📥 PDF

作者: Hongrui Jin

分类: cs.HC, cs.CL

发布日期: 2025-12-31

备注: 16 pages, 1 figure


💡 一句话要点

分析“Vibe Coding”范式,揭示大模型驱动软件开发中界面扁平化与控制权转移的矛盾。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Vibe Coding 界面扁平化 大型语言模型 软件开发 人机交互 政治经济学 控制权转移

📋 核心要点

  1. 传统编程界面复杂,存在GUI、CLI、API等多种模态,用户学习成本高,交互效率低。
  2. 论文提出“界面扁平化”概念,认为Vibe Coding将多种模态融合为自然语言对话界面,降低用户门槛。
  3. 分析Vibe Coding堆栈,揭示其背后远程计算、互操作标准等基础设施对控制权和意义创造权的转移。

📝 摘要(中文)

大型语言模型正在通过“Vibe Coding”重塑编程,即通过与模型驱动的工具链进行自然语言交互来开发软件。本文认为,Vibe Coding 最好的理解方式是界面扁平化,一种先前不同的模态(GUI、CLI 和 API)似乎融合为单一对话界面的重构,即使从意图到机器效应的底层翻译链条变得更长更复杂。借鉴弗里德里希·基特勒的物质主义媒体理论和亚历山大·加洛韦关于界面作为协议控制场所的描述,本文将编程定位为一种历史局部化的界面安排,而非与计算的本质关系。通过对当代 Vibe Coding 堆栈的物质主义重构,本文展示了远程计算基础设施、延迟和连接性、结构化输出、函数/工具调用以及模型上下文协议等互操作性标准如何将控制和意义创造权转移给模型和协议提供商。因此,技术能力的表面民主化依赖于新的依赖关系和新的素养。通过突出体验扁平化和基础设施复杂化之间的张力,我展示了 LLM 介导的开发如何重新分配符号劳动/权力,模糊责任,并将先前分散在编程社区中的能力私有化,从而为人工智能介导的人机交互的政治经济学提供了一个批判视角。

🔬 方法详解

问题定义:论文旨在分析大型语言模型(LLM)驱动的“Vibe Coding”范式对软件开发模式的影响。现有编程模式存在界面复杂、学习曲线陡峭等问题,而Vibe Coding试图通过自然语言交互降低编程门槛。然而,这种表面上的民主化可能隐藏着控制权和责任的转移,以及新的依赖关系。

核心思路:论文的核心思路是将Vibe Coding理解为一种“界面扁平化”现象,即多种编程模态(GUI、CLI、API)融合为单一的自然语言对话界面。这种扁平化掩盖了底层基础设施的复杂性,以及控制权从开发者向模型和协议提供商的转移。论文借鉴了媒体理论和界面理论,将编程视为一种历史性的界面安排,而非与计算的本质关系。

技术框架:论文采用了一种物质主义的重构方法,分析了Vibe Coding堆栈的各个组成部分,包括远程计算基础设施、延迟和连接性、结构化输出、函数/工具调用以及模型上下文协议等。通过分析这些组件之间的关系,论文揭示了控制权和意义创造权如何被重新分配。

关键创新:论文的创新之处在于提出了“界面扁平化”的概念,并将其作为理解Vibe Coding的关键视角。与以往关注编程语言和开发工具的研究不同,论文将重点放在了界面和基础设施的政治经济学上,揭示了技术进步背后的权力关系。

关键设计:论文没有涉及具体的参数设置、损失函数或网络结构等技术细节。其分析重点在于Vibe Coding的整体架构和流程,以及各个组件之间的交互关系。论文强调了互操作性标准(如模型上下文协议)在控制权转移中的作用,并分析了延迟和连接性等因素对用户体验和开发模式的影响。

📊 实验亮点

论文通过分析Vibe Coding堆栈,揭示了远程计算基础设施、互操作性标准等因素如何将控制权和意义创造权转移给模型和协议提供商。强调了技术能力的表面民主化依赖于新的依赖关系和新的素养,并指出了LLM介导的开发可能导致符号劳动/权力重新分配、责任模糊和能力私有化等问题。

🎯 应用场景

该研究成果可应用于分析和评估各种基于大型语言模型的软件开发工具和平台。有助于开发者、政策制定者和研究人员理解Vibe Coding的潜在影响,并制定相应的策略,以确保技术进步的公平性和可持续性。此外,该研究也为理解人工智能介导的人机交互的政治经济学提供了新的视角。

📄 摘要(原文)

Large language models are reshaping programming by enabling 'vibe coding': the development of softwares through natural-language interaction with model-driven toolchains. This article argues that vibe coding is best understood as interface flattening, a reconfiguration in which previously distinct modalities (GUI, CLI, and API) appear to converge into a single conversational surface, even as the underlying chain of translation from intention to machinic effect lengthens and thickens. Drawing on Friedrich Kittler's materialist media theory and Alexander Galloway's account of interfaces as sites of protocol control, the paper situates programming as a historically localised interface arrangement rather than an essential relation to computation. Through a materialist reconstruction of the contemporary vibe-coding stack, it shows how remote compute infrastructures, latency and connectivity, structured outputs, function/tool calling, and interoperability standards such as the Model Context Protocol relocate control and meaning-making power to model and protocol providers. The apparent democratisation of technical capability therefore depends on new dependencies and new literacies. By foregrounding the tension between experiential flattening and infrastructural thickening, I demonstrate how LLM-mediated development redistributes symbolic labour/power, obscures responsibility, and privatises competencies previously dispersed across programming communities, contributing a critical lens on the political economy of AI-mediated human-computer interaction.