A Comparative Study of Traditional Machine Learning, Deep Learning, and Large Language Models for Mental Health Forecasting using Smartphone Sensing Data

作者: Kaidong Feng, Zhu Sun, Roy Ka-Wei Lee, Xun Jiang, Yin-Leng Theng, Yi Ding

分类: cs.LG

发布日期: 2026-01-07

💡 一句话要点

利用智能手机传感数据，对比传统机器学习、深度学习和LLM进行心理健康预测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心理健康预测 智能手机传感 深度学习 Transformer 个性化建模

📋 核心要点

现有心理健康研究多侧重于状态检测，缺乏对未来心理健康状况的预测能力，难以进行主动干预。
本研究对比了传统机器学习、深度学习和大型语言模型在心理健康预测方面的性能，旨在寻找最佳预测模型。
实验结果表明，深度学习模型（特别是Transformer）在心理健康预测方面表现最佳，个性化策略能显著改善预测效果。

📝 摘要（中文）

本研究利用智能手机传感数据，以非侵入且可扩展的方式追踪与心理健康相关的日常行为，例如睡眠、活动和手机使用情况的变化，这些变化通常先于压力、焦虑或抑郁症状。与以往侧重于对现有状况进行检测的研究不同，本研究侧重于心理健康预测，从而能够通过适时自适应干预提供主动支持。本文首次全面对比了传统机器学习、深度学习和大型语言模型（LLM）在心理健康预测方面的性能，使用了迄今为止最广泛的大学生心理健康纵向数据集——大学体验传感（CES）数据集。我们系统地评估了模型在不同时间窗口、特征粒度、个性化策略和类别不平衡处理方面的表现。结果表明，深度学习模型，特别是Transformer（Macro-F1 = 0.58），实现了最佳的整体性能，而LLM在上下文推理方面表现出优势，但在时间建模方面较弱。个性化显著改善了对严重心理健康状态的预测。通过揭示不同的建模方法如何随时间推移解释手机传感行为数据，这项工作为下一代自适应和以人为中心的心理健康技术奠定了基础，从而可以促进研究和现实世界的福祉。

🔬 方法详解

问题定义：本研究旨在解决利用智能手机传感数据进行心理健康预测的问题。现有方法主要集中在心理健康状态的检测，而忽略了预测未来心理健康状况的重要性。此外，不同建模方法在处理时间序列行为数据方面的优劣势尚不明确。

核心思路：本研究的核心思路是对比不同类型的机器学习模型（传统机器学习、深度学习和大型语言模型）在心理健康预测任务上的性能，并探索不同模型在处理时间依赖性和上下文信息方面的能力。通过系统性的实验评估，确定最适合该任务的模型，并为未来的研究提供指导。

技术框架：整体框架包括数据预处理、特征工程、模型训练和评估四个主要阶段。数据预处理涉及清洗和转换智能手机传感数据。特征工程提取与心理健康相关的行为特征，如睡眠模式、活动水平和手机使用情况。模型训练阶段使用不同的机器学习模型，包括传统机器学习模型（如支持向量机和随机森林）、深度学习模型（如循环神经网络和Transformer）以及大型语言模型。最后，使用合适的评估指标（如Macro-F1）评估模型的预测性能。

关键创新：本研究的关键创新在于首次全面对比了传统机器学习、深度学习和大型语言模型在心理健康预测任务上的性能，并使用了迄今为止最广泛的大学生心理健康纵向数据集。此外，研究还探索了个性化策略和类别不平衡处理方法对预测性能的影响。

关键设计：研究中使用了多种深度学习模型，包括循环神经网络（RNN）和Transformer。Transformer模型在处理时间序列数据方面具有优势，能够捕捉长距离依赖关系。此外，研究还采用了个性化策略，为每个用户训练单独的模型，以提高预测精度。类别不平衡问题通过调整损失函数或采用重采样技术来解决。

📊 实验亮点

实验结果表明，深度学习模型，特别是Transformer模型，在心理健康预测任务中表现最佳，Macro-F1值达到0.58。个性化策略显著提高了对严重心理健康状态的预测精度。与传统机器学习模型相比，深度学习模型能够更好地捕捉时间依赖性和上下文信息。

🎯 应用场景

该研究成果可应用于开发智能心理健康监测系统，通过分析用户的智能手机使用行为，预测其心理健康状况，并及时提供个性化的干预措施。这有助于实现早期预警和预防，降低心理健康问题的发生率，提高用户的生活质量。未来可集成到智能手机应用或可穿戴设备中，实现普及化应用。

📄 摘要（原文）

Smartphone sensing offers an unobtrusive and scalable way to track daily behaviors linked to mental health, capturing changes in sleep, mobility, and phone use that often precede symptoms of stress, anxiety, or depression. While most prior studies focus on detection that responds to existing conditions, forecasting mental health enables proactive support through Just-in-Time Adaptive Interventions. In this paper, we present the first comprehensive benchmarking study comparing traditional machine learning (ML), deep learning (DL), and large language model (LLM) approaches for mental health forecasting using the College Experience Sensing (CES) dataset, the most extensive longitudinal dataset of college student mental health to date. We systematically evaluate models across temporal windows, feature granularities, personalization strategies, and class imbalance handling. Our results show that DL models, particularly Transformer (Macro-F1 = 0.58), achieve the best overall performance, while LLMs show strength in contextual reasoning but weaker temporal modeling. Personalization substantially improves forecasts of severe mental health states. By revealing how different modeling approaches interpret phone sensing behavioral data over time, this work lays the groundwork for next-generation, adaptive, and human-centered mental health technologies that can advance both research and real-world well-being.

A Comparative Study of Traditional Machine Learning, Deep Learning, and Large Language Models for Mental Health Forecasting using Smartphone Sensing Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册