Structured Exploration vs. Generative Flexibility: A Field Study Comparing Bandit and LLM Architectures for Personalised Health Behaviour Interventions

📄 arXiv: 2603.06330v1 📥 PDF

作者: Dominik P. Hofer, Haochen Song, Rania Islambouli, Laura Hawkins, Ananya Bhattacharjee, Meredith Franklin, Joseph Jay Williams, Jan D. Smeddinck

分类: cs.HC, cs.AI

发布日期: 2026-03-06

备注: Currently under review at a conference


💡 一句话要点

对比Bandit与LLM架构,探索个性化健康行为干预中的结构化探索与生成灵活性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化干预 健康行为改变 上下文Bandit 大型语言模型 数字健康 探索-利用 用户交互

📋 核心要点

  1. 现有数字健康干预在选择和传递有效的行为改变技术(BCTs)方面面临挑战。
  2. 论文提出结合上下文Bandit算法的结构化探索和LLM的生成灵活性,以实现个性化健康行为干预。
  3. 实验表明,基于LLM的方法比模板更有效,但Bandit优化并未显著提升感知帮助,用户交互上下文是关键。

📝 摘要(中文)

行为改变技术(BCTs)是数字健康干预的核心,但选择和传递有效的技术仍然具有挑战性。上下文Bandit算法能够对BCT选择进行统计优化,而大型语言模型(LLMs)则提供灵活的、上下文敏感的消息生成。我们进行了一项为期4周的关于身体活动动机的研究(N=54;9次研究后访谈),比较了五种每日消息传递方法:随机模板、带模板的上下文Bandit、LLM生成、混合Bandit+LLM以及带交互历史的LLM。基于LLM的方法被认为比模板更有帮助,但LLM条件之间没有出现显著差异。出乎意料的是,BCT选择的Bandit优化与仅LLM方法相比,并没有产生额外的感知帮助。不受约束的LLM主要关注单一BCT,而Bandit系统则强制执行跨技术的系统探索-利用。定量和定性结果表明,对用户输入的上下文确认驱动了感知帮助。我们为反思性AI健康行为改变系统贡献了设计建议,该系统解决了结构化探索和生成自主性之间的权衡。

🔬 方法详解

问题定义:现有数字健康干预系统难以有效地选择和传递行为改变技术(BCTs)。传统的基于模板的方法缺乏灵活性和个性化,而直接使用大型语言模型(LLMs)可能导致探索不足,过度集中于某些BCT,忽略了用户交互的上下文信息。

核心思路:论文的核心思路是结合上下文Bandit算法的结构化探索能力和LLM的生成灵活性,从而在BCT的选择上实现更好的探索-利用平衡。通过Bandit算法来指导BCT的选择,保证对不同BCT的充分探索,同时利用LLM生成上下文相关的个性化消息,提高用户的参与度和接受度。

技术框架:该研究比较了五种不同的消息传递方法:1) 随机模板,2) 上下文Bandit与模板,3) LLM生成,4) 混合Bandit+LLM,5) LLM与交互历史。其中,混合Bandit+LLM方法首先使用Bandit算法选择BCT,然后使用LLM根据用户上下文生成相应的消息。LLM与交互历史的方法则在生成消息时考虑了用户的历史交互信息。

关键创新:论文的关键创新在于对比了结构化探索(Bandit)和生成灵活性(LLM)在个性化健康行为干预中的作用,并提出了混合使用两种方法的思路。研究发现,单纯依赖LLM可能导致探索不足,而结合Bandit算法可以保证对不同BCT的充分探索。此外,研究强调了用户交互上下文的重要性,认为上下文确认是提高用户感知帮助的关键因素。

关键设计:研究中使用了上下文Bandit算法来选择BCT,具体算法细节未知。LLM使用了预训练的语言模型,并根据具体任务进行了微调,具体微调方法未知。实验中,研究人员收集了用户的反馈数据,并使用定量和定性方法评估了不同方法的有效性。具体评估指标包括用户对消息的帮助程度评分和访谈内容分析。

📊 实验亮点

研究表明,基于LLM的方法比基于模板的方法更受用户欢迎,但不同的LLM配置之间没有显著差异。令人意外的是,Bandit优化BCT选择并没有比单纯使用LLM带来额外的感知帮助。研究强调了用户交互上下文的重要性,发现上下文确认是提高用户感知帮助的关键因素。这些发现为设计更有效的个性化健康行为干预系统提供了重要启示。

🎯 应用场景

该研究成果可应用于开发更有效的个性化数字健康干预系统,例如运动激励、饮食管理、戒烟辅助等。通过结合Bandit算法和LLM,可以实现对用户行为的动态优化和个性化干预,提高干预效果和用户依从性。未来的研究可以进一步探索如何更好地利用用户交互数据,设计更智能的健康行为改变系统。

📄 摘要(原文)

Behaviour Change Techniques (BCTs) are central to digital health interventions, yet selecting and delivering effective techniques remains challenging. Contextual bandits enable statistically grounded optimisation of BCT selection, while Large Language Models (LLMs) offer flexible, context-sensitive message generation. We conducted a 4-week study on physical activity motivation (N=54; 9 post-study interviews) that compared five daily messaging approaches: random templates, contextual bandit with templates, LLM generation, hybrid bandit+LLM, and LLM with interaction history. LLM-based approaches were rated substantially more helpful than templates, but no significant differences emerged among LLM conditions. Unexpectedly, bandit optimisation for BCTs selection yielded no additional perceived helpfulness compared with LLM-only approaches. Unconstrained LLMs focused heavily on a single BCT, whereas bandit systems enforced systematic exploration-exploitation across techniques. Quantitative and qualitative findings suggest contextual acknowledgement of user input drove perceived helpfulness. We contribute design suggestions for reflective AI health behaviour change systems that address a trade-off between structured exploration and generative autonomy.