CLaC at DISRPT 2025: Hierarchical Adapters for Cross-Framework Multi-lingual Discourse Relation Classification
作者: Nawar Turk, Daniele Comitogianni, Leila Kosseim
分类: cs.CL
发布日期: 2025-09-21
💡 一句话要点
提出HiDAC模型,解决跨框架多语篇章关系分类任务中的统一标签挑战。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 篇章关系分类 跨框架学习 多语言处理 适配器网络 对比学习 自然语言理解 预训练模型
📋 核心要点
- 跨框架多语篇章关系分类任务面临多语言和形式主义差异的挑战,现有方法难以有效处理统一标签。
- HiDAC模型采用分层双适配器和对比学习,旨在提升模型在统一标签下的跨框架篇章关系分类性能。
- 实验表明,HiDAC模型在参数效率方面优于完全微调,并在总体准确率上取得了最佳结果(67.5%)。
📝 摘要(中文)
本文介绍了我们在DISRPT 2025共享任务Task 3(篇章关系分类)中的提交。Task 3提出了一个统一的、包含17个篇章关系标签的集合,涵盖16种语言和六种篇章框架中的39个语料库,带来了显著的多语言和跨形式主义挑战。我们首先通过微调基于多语言BERT的模型(mBERT、XLM-RoBERTa-Base和XLM-RoBERTa-Large),采用两种参数排序策略和渐进式解冻比例,为该任务建立了强大的基线。然后,我们在零样本和少样本设置下评估了基于提示的大型语言模型(即Claude Opus 4.0),以了解LLM如何响应新提出的统一标签。最后,我们引入了HiDAC,一种分层双适配器对比学习模型。结果表明,虽然较大的Transformer模型实现了更高的准确率,但改进幅度不大,并且解冻编码器层的前75%可以产生与完全微调相当的性能,同时训练的参数要少得多。基于提示的模型明显落后于微调的Transformer模型,而HiDAC实现了最高的总体准确率(67.5%),同时比完全微调更具参数效率。
🔬 方法详解
问题定义:论文旨在解决跨框架、多语言的篇章关系分类问题。现有方法,如直接微调大型预训练语言模型,虽然可以取得一定效果,但忽略了不同框架和语言之间的差异性,且完全微调参数量巨大,效率较低。此外,直接使用Prompt-based LLM在zero-shot或few-shot setting下效果不佳,无法有效利用统一标签。
核心思路:论文的核心思路是利用分层适配器来学习不同框架和语言的特定表示,并通过对比学习来增强模型对统一篇章关系标签的区分能力。通过这种方式,模型能够更好地适应跨框架和多语言的复杂场景,同时保持参数效率。
技术框架:HiDAC模型的技术框架主要包含以下几个模块: 1. 预训练语言模型:使用预训练的Transformer模型(如XLM-RoBERTa)作为基础编码器。 2. 分层适配器:在Transformer的每一层添加适配器模块,用于学习特定框架和语言的表示。 3. 对比学习:使用对比学习损失函数,鼓励模型将相同篇章关系的样本拉近,不同篇章关系的样本推远。 4. 分类器:使用线性分类器将学习到的表示映射到篇章关系标签。
关键创新:HiDAC模型的关键创新在于: 1. 分层适配器结构:通过在Transformer的每一层添加适配器,能够更细粒度地学习不同框架和语言的特征。 2. 双适配器设计:使用两个适配器分别处理篇章的两个论元,从而更好地捕捉论元之间的关系。 3. 对比学习目标:通过对比学习,增强模型对篇章关系标签的区分能力,提高分类准确率。
关键设计: 1. 适配器大小:适配器通常采用 bottleneck 结构,减少参数量,例如将隐藏层维度先降维到较小维度,再升维回原始维度。 2. 对比学习损失函数:采用 InfoNCE loss 或类似的对比学习损失函数,需要精心设计正负样本的选取策略。 3. 训练策略:采用两阶段训练策略,首先预训练适配器,然后微调整个模型。
📊 实验亮点
HiDAC模型在DISRPT 2025 Task 3中取得了最佳的总体准确率(67.5%),超过了完全微调的Transformer模型,同时保持了更高的参数效率。实验还表明,解冻编码器层的前75%可以达到与完全微调相当的性能,显著减少了训练参数。
🎯 应用场景
该研究成果可应用于自然语言处理的多个领域,如文本摘要、机器翻译、情感分析等。通过提升篇章关系分类的准确性,可以帮助机器更好地理解文本的深层含义,从而提高下游任务的性能。此外,该方法在跨语言和跨领域的迁移学习方面也具有潜力,可以应用于资源匮乏的语言和领域。
📄 摘要(原文)
We present our submission to Task 3 (Discourse Relation Classification) of the DISRPT 2025 shared task. Task 3 introduces a unified set of 17 discourse relation labels across 39 corpora in 16 languages and six discourse frameworks, posing significant multilingual and cross-formalism challenges. We first benchmark the task by fine-tuning multilingual BERT-based models (mBERT, XLM-RoBERTa-Base, and XLM-RoBERTa-Large) with two argument-ordering strategies and progressive unfreezing ratios to establish strong baselines. We then evaluate prompt-based large language models (namely Claude Opus 4.0) in zero-shot and few-shot settings to understand how LLMs respond to the newly proposed unified labels. Finally, we introduce HiDAC, a Hierarchical Dual-Adapter Contrastive learning model. Results show that while larger transformer models achieve higher accuracy, the improvements are modest, and that unfreezing the top 75% of encoder layers yields performance comparable to full fine-tuning while training far fewer parameters. Prompt-based models lag significantly behind fine-tuned transformers, and HiDAC achieves the highest overall accuracy (67.5%) while remaining more parameter-efficient than full fine-tuning.