Scaling behavior of large language models in emotional safety classification across sizes and tasks

作者: Edoardo Pinzuti, Oliver Tüscher, André Ferreira Castro

分类: cs.CL, cs.LG

发布日期: 2025-09-02

💡 一句话要点

研究LLM在情感安全分类中的规模效应，探索轻量级模型在心理健康领域的应用潜力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感安全分类 心理健康 规模效应 轻量级微调

📋 核心要点

现有LLM在处理情感安全内容时，缺乏对其规模效应的深入理解，限制了其在心理健康领域的应用。
通过构建新的数据集并评估不同规模的LLaMA模型，研究揭示了模型规模与情感安全分类性能之间的关系。
实验表明，轻量级微调可以使小型模型在特定任务上达到与大型模型相当的性能，降低了部署成本。

📝 摘要（中文）

本文研究了大型语言模型（LLM）在处理情感敏感内容时的规模效应，这对于构建安全可靠的系统至关重要，尤其是在心理健康领域。研究聚焦于两个关键任务：情感安全的三元分类（安全、不安全、临界）和使用六类安全风险分类的多标签分类。为此，作者构建了一个新的数据集，通过合并多个人工撰写的心理健康数据集（>15K样本），并使用ChatGPT生成的情感重新解释提示进行扩充。评估了四个LLaMA模型（1B、3B、8B、70B）在零样本、少样本和微调设置下的表现。结果表明，更大的LLM在多标签分类和零样本设置中表现更强。然而，轻量级微调使得1B模型在多个高数据类别中达到了与更大模型和BERT相当的性能，同时在推理时仅需<2GB VRAM。这些发现表明，更小的、设备上的模型可以作为敏感应用的替代方案，提供解释情感上下文和维持安全对话边界的能力。这项工作强调了治疗性LLM应用和安全关键系统的可扩展对齐的关键意义。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）在情感安全分类任务中的表现，特别是在心理健康领域。现有方法通常依赖于大型模型，但缺乏对模型规模与性能之间关系的深入理解，并且忽略了小型模型在隐私保护和资源受限环境下的应用潜力。

核心思路：论文的核心思路是通过系统地评估不同规模的LLaMA模型在情感安全分类任务中的表现，来揭示LLM的规模效应。同时，探索轻量级微调方法，以使小型模型能够在特定任务上达到与大型模型相当的性能，从而降低部署成本并提高隐私性。

技术框架：整体框架包括数据构建、模型选择、实验设置和结果分析四个主要阶段。首先，构建一个包含情感安全标签的大规模数据集，用于训练和评估模型。然后，选择不同规模的LLaMA模型（1B、3B、8B、70B）作为研究对象。接着，在零样本、少样本和微调设置下，评估这些模型在情感安全三元分类和多标签分类任务中的表现。最后，分析实验结果，揭示模型规模与性能之间的关系，并评估轻量级微调方法的效果。

关键创新：论文的关键创新在于：1) 构建了一个新的、包含情感安全标签的大规模数据集，用于训练和评估LLM；2) 系统地研究了不同规模的LLaMA模型在情感安全分类任务中的表现，揭示了LLM的规模效应；3) 探索了轻量级微调方法，以使小型模型能够在特定任务上达到与大型模型相当的性能。

关键设计：在数据构建方面，论文合并了多个人工撰写的心理健康数据集，并使用ChatGPT生成的情感重新解释提示进行扩充，以提高数据的多样性和质量。在模型训练方面，论文采用了交叉熵损失函数，并使用AdamW优化器进行优化。在实验设置方面，论文采用了零样本、少样本和微调三种设置，以全面评估模型的性能。

📊 实验亮点

实验结果表明，更大的LLM在多标签分类和零样本设置中表现更强。然而，通过轻量级微调，1B模型在多个高数据类别中达到了与更大模型和BERT相当的性能，同时在推理时仅需<2GB VRAM。这表明小型模型在特定任务上具有竞争力，并且可以降低部署成本。

🎯 应用场景

该研究成果可应用于开发隐私保护的心理健康辅助工具，例如情感支持聊天机器人、心理健康风险评估系统等。通过使用轻量级模型，可以在设备本地进行情感分析，避免将敏感数据上传到云端，从而保护用户隐私。此外，该研究还可以为开发安全可靠的治疗性LLM应用提供指导。

📄 摘要（原文）

Understanding how large language models (LLMs) process emotionally sensitive content is critical for building safe and reliable systems, particularly in mental health contexts. We investigate the scaling behavior of LLMs on two key tasks: trinary classification of emotional safety (safe vs. unsafe vs. borderline) and multi-label classification using a six-category safety risk taxonomy. To support this, we construct a novel dataset by merging several human-authored mental health datasets (> 15K samples) and augmenting them with emotion re-interpretation prompts generated via ChatGPT. We evaluate four LLaMA models (1B, 3B, 8B, 70B) across zero-shot, few-shot, and fine-tuning settings. Our results show that larger LLMs achieve stronger average performance, particularly in nuanced multi-label classification and in zero-shot settings. However, lightweight fine-tuning allowed the 1B model to achieve performance comparable to larger models and BERT in several high-data categories, while requiring <2GB VRAM at inference. These findings suggest that smaller, on-device models can serve as viable, privacy-preserving alternatives for sensitive applications, offering the ability to interpret emotional context and maintain safe conversational boundaries. This work highlights key implications for therapeutic LLM applications and the scalable alignment of safety-critical systems.

Scaling behavior of large language models in emotional safety classification across sizes and tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册