An Ensemble Classification Approach in A Multi-Layered Large Language Model Framework for Disease Prediction

📄 arXiv: 2509.02446v1 📥 PDF

作者: Ali Hamdi, Malak Mohamed, Rokaia Emad, Khaled Shaban

分类: cs.CL, cs.LG

发布日期: 2025-09-02


💡 一句话要点

提出一种多层LLM框架下的集成方法,用于提升阿拉伯语社交媒体疾病预测精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 疾病预测 社交远程医疗 阿拉伯语文本 大语言模型 Transformer模型 集成学习 文本预处理

📋 核心要点

  1. 现有方法难以有效利用阿拉伯语社交媒体中非结构化的医疗文本进行准确的疾病预测。
  2. 利用LLM进行文本预处理,并结合微调的阿拉伯语Transformer模型进行特征提取和分类。
  3. 通过集成多个模型的预测结果,提升了疾病分类的准确性和鲁棒性,最高达到80.56%。

📝 摘要(中文)

本文提出了一种用于疾病预测的多层大语言模型(LLM)框架下的集成分类方法。社交远程医疗通过允许患者远程发布症状和参与医疗咨询,在医疗保健领域取得了显著进展。用户经常在社交媒体和在线健康平台上发布症状,从而创建了一个巨大的医疗数据存储库,可以用于疾病分类。诸如LLAMA3和GPT-3.5等大型语言模型以及基于Transformer的模型(如BERT)已在处理复杂的医学文本方面表现出强大的能力。在本研究中,我们评估了三种阿拉伯语医学文本预处理方法,如摘要、提炼和命名实体识别(NER),然后应用微调的阿拉伯语Transformer模型(CAMeLBERT、AraBERT和AsafayaBERT)。为了增强鲁棒性,我们采用了一种多数投票集成方法,该方法结合了原始和预处理文本表示的预测。这种方法实现了80.56%的最佳分类准确率,从而显示了其在利用各种文本表示和模型预测来提高对医学文本理解方面的有效性。据我们所知,这是第一个将基于LLM的预处理与微调的阿拉伯语Transformer模型和集成学习相结合,用于阿拉伯语社交远程医疗数据中疾病分类的工作。

🔬 方法详解

问题定义:论文旨在解决阿拉伯语社交媒体文本中疾病分类的问题。现有方法在处理此类文本时面临挑战,因为这些文本通常是非结构化的、包含口语化表达,并且缺乏标准的医学术语。这导致传统方法难以准确地提取相关信息并进行有效的疾病预测。

核心思路:论文的核心思路是利用大语言模型(LLM)进行文本预处理,以改善文本质量并提取关键信息。然后,使用微调的阿拉伯语Transformer模型进行特征提取和分类。最后,通过集成多个模型的预测结果,提高预测的准确性和鲁棒性。这种方法旨在克服阿拉伯语社交媒体文本的复杂性和多样性,从而实现更准确的疾病分类。

技术框架:该框架包含以下主要阶段:1) 数据收集:从阿拉伯语社交媒体和在线健康平台收集医疗文本数据。2) 文本预处理:应用三种预处理方法,包括摘要、提炼和命名实体识别(NER),利用LLM进行处理。3) 模型微调:使用预处理后的数据微调阿拉伯语Transformer模型(CAMeLBERT、AraBERT和AsafayaBERT)。4) 集成学习:使用多数投票集成方法,结合原始文本和预处理文本的预测结果。5) 疾病分类:根据集成模型的预测结果,将文本分类到不同的疾病类别。

关键创新:该研究的关键创新在于将LLM用于阿拉伯语医学文本的预处理,并将其与微调的Transformer模型和集成学习相结合。据作者所知,这是第一个将这三种技术结合起来用于阿拉伯语社交远程医疗数据中疾病分类的工作。这种集成方法能够有效地利用各种文本表示和模型预测,从而提高对医学文本的理解。

关键设计:在文本预处理阶段,使用了三种不同的LLM技术:摘要(减少文本长度)、提炼(改善文本质量)和命名实体识别(提取关键医学实体)。在模型微调阶段,使用了三种不同的阿拉伯语Transformer模型,以捕捉不同的语言特征。在集成学习阶段,使用了多数投票方法,以结合不同模型的预测结果。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。

📊 实验亮点

该研究通过集成LLM预处理、微调的阿拉伯语Transformer模型和集成学习,实现了80.56%的疾病分类准确率。这一结果表明,该方法能够有效地利用各种文本表示和模型预测,从而提高对阿拉伯语医学文本的理解。具体的基线对比数据未知,但该结果证明了所提出方法的有效性。

🎯 应用场景

该研究成果可应用于社交远程医疗、在线健康咨询和公共卫生监测等领域。通过自动分析社交媒体上的医疗文本,可以帮助医疗机构快速识别疾病爆发、评估公众健康状况,并为患者提供个性化的医疗建议。未来,该技术有望进一步扩展到其他语言和医疗领域,为全球健康事业做出贡献。

📄 摘要(原文)

Social telehealth has made remarkable progress in healthcare by allowing patients to post symptoms and participate in medical consultations remotely. Users frequently post symptoms on social media and online health platforms, creating a huge repository of medical data that can be leveraged for disease classification. Large language models (LLMs) such as LLAMA3 and GPT-3.5, along with transformer-based models like BERT, have demonstrated strong capabilities in processing complex medical text. In this study, we evaluate three Arabic medical text preprocessing methods such as summarization, refinement, and Named Entity Recognition (NER) before applying fine-tuned Arabic transformer models (CAMeLBERT, AraBERT, and AsafayaBERT). To enhance robustness, we adopt a majority voting ensemble that combines predictions from original and preprocessed text representations. This approach achieved the best classification accuracy of 80.56%, thus showing its effectiveness in leveraging various text representations and model predictions to improve the understanding of medical texts. To the best of our knowledge, this is the first work that integrates LLM-based preprocessing with fine-tuned Arabic transformer models and ensemble learning for disease classification in Arabic social telehealth data.