CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

📄 arXiv: 2603.01973v1 📥 PDF

作者: Yixin Nie, Lin Guan, Zhongyao Ma, Anchit Gupta, Yipin Zhou, Xiao Li, Zhengping Zhou, Raymond Zeng, Gelin Zhou, Shigan Chu, Ajay Thampi, Wancen Mu, Nathan Shuster, Ketong Wang, Lin Chen, Jason Brewer, Derek Hao Hu, Alexander McCauley, Jason Weston, Sem Park, Na Zhang, Kevin Tang

分类: cs.CL, cs.AI, cs.SI

发布日期: 2026-03-02


💡 一句话要点

CharacterFlywheel:在生产环境中迭代提升LLM的互动性和可控性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 迭代优化 社交聊天应用 奖励建模 强化学习 A/B测试 用户互动 指令遵循

📋 核心要点

  1. 现有LLM在社交应用中难以兼顾互动性和可控性,且缺乏有效的迭代优化方法。
  2. CharacterFlywheel通过数据管理、奖励建模、监督微调和强化学习的迭代循环,持续提升LLM的性能。
  3. 实验表明,该方法在互动广度和深度上均有显著提升,同时大幅提高了指令遵循能力,降低了违规行为。

📝 摘要(中文)

本报告介绍了CharacterFlywheel,一个迭代的飞轮流程,用于改进Instagram、WhatsApp和Messenger等社交聊天应用中使用的LLM。从LLaMA 3.1开始,我们通过来自内部和外部真实用户流量的数据,对模型进行了15代优化。通过2024年7月至2025年4月的持续部署,我们进行了为期7天的受控A/B测试,结果显示互动性持续提升:8个新部署的模型中有7个表现出优于基线的正向提升,其中表现最佳的模型在互动广度上提升高达8.8%,在互动深度上提升高达19.4%。我们还观察到可控性方面的显著提升,指令遵循从59.2%提高到84.8%,指令违规从26.6%降低到5.8%。我们详细介绍了CharacterFlywheel流程,该流程集成了数据管理、奖励建模(用于估计和插值互动指标的分布)、监督微调(SFT)、强化学习(RL)以及离线和在线评估,以确保每个优化步骤的可靠进展。我们还讨论了我们的过拟合预防方法以及大规模生产动态的应对。这些贡献提高了LLM在服务数百万用户的社交应用中的科学严谨性和理解。

🔬 方法详解

问题定义:论文旨在解决在实际社交聊天应用中,如何迭代优化大型语言模型(LLM)以提升用户互动性和可控性的问题。现有方法通常难以有效利用真实用户数据进行持续改进,并且在保证模型安全性和避免有害输出方面存在挑战。此外,如何准确评估和预测用户互动行为,并将其作为优化目标也是一个难点。

核心思路:CharacterFlywheel的核心思路是构建一个闭环的迭代优化流程,该流程以真实用户数据为驱动,通过奖励建模来量化用户互动行为,并利用监督微调和强化学习来优化模型。通过持续部署和A/B测试,可以实时评估模型性能,并将结果反馈到数据管理环节,从而形成一个正向循环。

技术框架:CharacterFlywheel包含以下主要模块:1) 数据管理:收集和清洗来自真实用户流量的数据,包括用户互动行为、模型输出等。2) 奖励建模:训练奖励模型,用于预测用户对模型输出的互动程度,例如点赞、评论等。3) 监督微调(SFT):使用标注数据对模型进行微调,以提升指令遵循能力和生成质量。4) 强化学习(RL):使用奖励模型作为奖励信号,通过强化学习进一步优化模型,以最大化用户互动。5) 离线和在线评估:使用离线指标和在线A/B测试来评估模型性能,并将结果反馈到数据管理环节。

关键创新:CharacterFlywheel的关键创新在于其闭环的迭代优化流程,该流程能够有效利用真实用户数据进行持续改进。此外,奖励建模的使用使得可以直接优化用户互动行为,而不仅仅是语言模型的生成质量。通过将离线和在线评估相结合,可以更准确地评估模型性能,并及时发现和解决问题。

关键设计:在奖励建模方面,论文可能采用了回归模型或排序模型来预测用户互动程度。在强化学习方面,可能使用了Proximal Policy Optimization (PPO) 等算法来优化模型。具体的损失函数和网络结构等技术细节在论文中可能有所描述,但此处无法得知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CharacterFlywheel在提升LLM的互动性和可控性方面取得了显著成果。在A/B测试中,7/8的新部署模型表现出优于基线的正向提升,其中表现最佳的模型在互动广度上提升高达8.8%,在互动深度上提升高达19.4%。指令遵循从59.2%提高到84.8%,指令违规从26.6%降低到5.8%。

🎯 应用场景

该研究成果可广泛应用于各种社交聊天应用、智能客服系统和虚拟助手等领域。通过持续迭代优化,可以显著提升用户互动性和满意度,提高用户粘性,并降低有害信息传播的风险。该方法也为其他LLM的优化提供了借鉴,有助于推动人工智能技术在实际应用中的发展。

📄 摘要(原文)

This report presents CharacterFlywheel, an iterative flywheel process for improving large language models (LLMs) in production social chat applications across Instagram, WhatsApp, and Messenger. Starting from LLaMA 3.1, we refined models across 15 generations using data from both internal and external real-user traffic. Through continuous deployments from July 2024 to April 2025, we conducted controlled 7-day A/B tests showing consistent engagement improvements: 7 of 8 newly deployed models demonstrated positive lift over the baseline, with the strongest performers achieving up to 8.8% improvement in engagement breadth and 19.4% in engagement depth. We also observed substantial gains in steerability, with instruction following increasing from 59.2% to 84.8% and instruction violations decreasing from 26.6% to 5.8%. We detail the CharacterFlywheel process which integrates data curation, reward modeling to estimate and interpolate the landscape of engagement metrics, supervised fine-tuning (SFT), reinforcement learning (RL), and both offline and online evaluation to ensure reliable progress at each optimization step. We also discuss our methods for overfitting prevention and navigating production dynamics at scale. These contributions advance the scientific rigor and understanding of LLMs in social applications serving millions of users.