Dhati+: Fine-tuned Large Language Models for Arabic Subjectivity Evaluation
作者: Slimane Bellaouar, Attia Nehar, Soumia Souffi, Mounia Bouameur
分类: cs.CL, cs.AI
发布日期: 2025-08-27
备注: 25 pages, 7 figures
💡 一句话要点
提出Dhati+以解决阿拉伯语主观性评估数据不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿拉伯语处理 主观性分析 数据集构建 模型微调 情感分析
📋 核心要点
- 阿拉伯语在主观性分析工具开发中面临数据集稀缺的问题,现有方法无法有效处理。
- 本文通过构建AraDhati+数据集并微调多种阿拉伯语模型,提出了一种新的主观性评估方法。
- 实验结果显示,该方法在阿拉伯语主观性分类中达到了97.79%的高准确率,显著提升了分类效果。
📝 摘要(中文)
阿拉伯语作为一种语言丰富且形态复杂的语言,面临资源不足的挑战,尤其是在主观性分析工具的开发上。现有的大型标注数据集稀缺,限制了相关工具的准确性。本文提出了一种新的阿拉伯语文本主观性评估方法,通过整合现有数据集构建了全面的数据集AraDhati+,并对先进的阿拉伯语模型(如XLM-RoBERTa、AraBERT和ArabianGPT)进行了微调,最终实现了97.79%的主观性分类准确率,展示了该方法在阿拉伯语处理中的有效性。
🔬 方法详解
问题定义:本文旨在解决阿拉伯语主观性评估中的数据不足问题,现有方法在处理阿拉伯语文本时准确性较低,缺乏足够的标注数据集。
核心思路:通过整合现有的阿拉伯语数据集(如ASTD、LABR、HARD和SANAD),构建一个新的综合数据集AraDhati+,并对多种先进的阿拉伯语模型进行微调,以提高主观性分类的准确性。
技术框架:整体流程包括数据集构建、模型选择与微调、以及集成决策方法。首先,整合多个数据集形成AraDhati+;其次,选择XLM-RoBERTa、AraBERT和ArabianGPT等模型进行微调;最后,采用集成方法结合各模型的优势。
关键创新:最重要的创新在于构建了AraDhati+数据集,并通过微调多种模型实现了高效的主观性分类,克服了阿拉伯语处理中的资源不足问题。
关键设计:在模型微调过程中,采用了特定的超参数设置和损失函数,以优化模型在主观性分类任务中的表现,确保了模型的高准确率。具体的参数设置和网络结构细节在实验部分进行了详细描述。
📊 实验亮点
实验结果表明,所提出的方法在阿拉伯语主观性分类任务中达到了97.79%的准确率,相较于现有基线模型有显著提升,展示了该方法在资源有限情况下的有效性和可靠性。
🎯 应用场景
该研究的潜在应用领域包括社交媒体分析、情感分析和市场调研等。通过提高阿拉伯语文本的主观性评估能力,可以为相关行业提供更准确的用户反馈和市场趋势分析,具有重要的实际价值和未来影响。
📄 摘要(原文)
Despite its significance, Arabic, a linguistically rich and morphologically complex language, faces the challenge of being under-resourced. The scarcity of large annotated datasets hampers the development of accurate tools for subjectivity analysis in Arabic. Recent advances in deep learning and Transformers have proven highly effective for text classification in English and French. This paper proposes a new approach for subjectivity assessment in Arabic textual data. To address the dearth of specialized annotated datasets, we developed a comprehensive dataset, AraDhati+, by leveraging existing Arabic datasets and collections (ASTD, LABR, HARD, and SANAD). Subsequently, we fine-tuned state-of-the-art Arabic language models (XLM-RoBERTa, AraBERT, and ArabianGPT) on AraDhati+ for effective subjectivity classification. Furthermore, we experimented with an ensemble decision approach to harness the strengths of individual models. Our approach achieves a remarkable accuracy of 97.79\,\% for Arabic subjectivity classification. Results demonstrate the effectiveness of the proposed approach in addressing the challenges posed by limited resources in Arabic language processing.