Learning Next Action Predictors from Human-Computer Interaction
作者: Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang
分类: cs.CL, cs.HC
发布日期: 2026-03-06
备注: 32 pages, 10 figures, see https://generalusermodels.github.io/nap
💡 一句话要点
提出LongNAP模型,通过预测用户在人机交互中的下一步动作,实现更主动的AI系统。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 下一步动作预测 人机交互 用户行为建模 上下文学习 策略梯度
📋 核心要点
- 现有AI系统在预测用户行为方面依赖稀疏信号,缺乏对用户交互上下文的深入理解。
- LongNAP模型结合参数学习和上下文学习,通过策略梯度训练,预测用户下一步动作。
- 实验表明,LongNAP在预测精度上显著优于现有方法,并具备跨用户泛化能力。
📝 摘要(中文)
本文旨在构建真正主动的AI系统,使其能够预测用户的下一步行动。为此,作者提出了“下一步动作预测”(NAP)任务,即给定用户与计算机的多模态交互序列(屏幕截图、点击、传感器数据),预测用户的下一个动作。为了扩展数据规模,作者使用视觉-语言模型对纵向、自然的用户计算机使用数据进行标注,并开源了一个可在私有基础设施上执行此标注的pipeline。作者标注了来自20个用户的连续一个月手机使用数据,共计超过36万个动作,相当于1800小时的屏幕时间。然后,作者提出了LongNAP,一个结合了参数学习和上下文学习的用户模型,用于推理长期交互历史。LongNAP通过策略梯度方法进行训练,以生成给定上下文的用户特定推理轨迹,从过去的轨迹库中检索相关轨迹,然后在上下文中应用检索到的轨迹来预测未来的动作。使用LLM作为评判指标(与ground truth的0-1相似度),LongNAP在held-out数据上显著优于监督微调和prompted baselines(分别提升79%和39%)。此外,LongNAP在跨个体训练时可以泛化到held-out用户。尽管用户在任何时刻可能采取的下一步动作空间是无限的,但LongNAP预测的轨迹中有17.1%与用户的实际行为高度一致(LLM-judge score≥0.5)。当我们过滤到高置信度的预测时,这一比例上升到26%。总之,作者认为,从用户行为的完整上下文中学习以预测用户需求,现在是一个可行的任务,具有巨大的潜力。
🔬 方法详解
问题定义:论文旨在解决如何准确预测用户在人机交互中的下一步动作(Next Action Prediction, NAP)的问题。现有方法通常依赖于稀疏的用户输入信号,例如键盘输入或语音指令,而忽略了丰富的上下文信息,如屏幕内容、鼠标移动轨迹等。这导致预测精度较低,难以构建真正主动的AI系统。
核心思路:论文的核心思路是利用用户与计算机交互的完整上下文信息,包括视觉信息(屏幕截图)、操作信息(点击事件)和传感器数据等,来预测用户的下一步动作。通过结合参数学习和上下文学习,模型能够学习用户特定的行为模式,并根据历史交互记录进行推理。
技术框架:LongNAP模型的整体框架包括以下几个主要模块:1) 数据收集与标注:使用开源pipeline对用户计算机使用数据进行标注,生成大规模的训练数据集。2) 用户特定推理轨迹生成:使用策略梯度方法训练模型,使其能够根据给定的上下文生成用户特定的推理轨迹。3) 轨迹检索:从过去的轨迹库中检索与当前上下文相关的轨迹。4) 上下文学习:将检索到的轨迹作为上下文信息,用于预测用户的下一步动作。
关键创新:LongNAP模型的关键创新在于结合了参数学习和上下文学习。参数学习使得模型能够学习通用的用户行为模式,而上下文学习则使得模型能够根据用户的历史交互记录进行个性化预测。此外,使用策略梯度方法训练模型,使其能够生成更符合用户行为的推理轨迹,也是一个重要的创新点。
关键设计:LongNAP模型使用了Transformer架构来处理多模态输入数据。策略梯度训练的目标是最大化预测动作与真实动作之间的相似度,使用LLM作为评判指标来衡量相似度。轨迹检索模块使用了基于向量相似度的检索方法,选择与当前上下文最相关的历史轨迹。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
LongNAP模型在held-out数据上的表现显著优于监督微调和prompted baselines,分别提升了79%和39%。即使在跨用户泛化的情况下,LongNAP仍然表现出良好的性能。在所有预测轨迹中,有17.1%与用户的实际行为高度一致(LLM-judge score≥0.5),而对于高置信度的预测,这一比例上升到26%。
🎯 应用场景
该研究成果可应用于智能助手、自动化办公、用户行为分析等领域。例如,智能助手可以根据用户当前的操作和历史行为,预测用户下一步可能需要的服务或信息,从而提供更主动、个性化的帮助。在自动化办公领域,可以根据用户的工作习惯,自动完成一些重复性的任务,提高工作效率。此外,该技术还可以用于用户行为分析,帮助企业了解用户的使用习惯和偏好,从而优化产品设计和营销策略。
📄 摘要(原文)
Truly proactive AI systems must anticipate what we will do next. This foresight demands far richer information than the sparse signals we type into our prompts -- it demands reasoning over the entire context of what we see and do. We formalize this as next action prediction (NAP): given a sequence of a user's multimodal interactions with a computer (screenshots, clicks, sensor data), predict that user's next action. Progress on this task requires both new data and modeling approaches. To scale data, we annotate longitudinal, naturalistic computer use with vision-language models. We release an open-source pipeline for performing this labeling on private infrastructure, and label over 360K actions across one month of continuous phone usage from 20 users, amounting to 1,800 hours of screen time. We then introduce LongNAP, a user model that combines parametric and in-context learning to reason over long interaction histories. LongNAP is trained via policy gradient methods to generate user-specific reasoning traces given some context; retrieve relevant traces from a library of past traces; and then apply retrieved traces in-context to predict future actions. Using an LLM-as-judge evaluation metric (0-1 similarity to ground truth), LongNAP significantly outperforms supervised finetuning and prompted baselines on held-out data (by 79% and 39% respectively). Additionally, LongNAP generalizes to held out users when trained across individuals. The space of next actions a user might take at any moment is unbounded, spanning thousands of possible outcomes. Despite this, 17.1% of LongNAP's predicted trajectories are well-aligned with what a user does next (LLM-judge score $\geq$ 0.5). This rises to 26% when we filter to highly confident predictions. In sum, we argue that learning from the full context of user behavior to anticipate user needs is now a viable task with substantial opportunity.