Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation

📄 arXiv: 2601.02128v1 📥 PDF

作者: Steffen Freisinger, Philipp Seeberger, Thomas Ranzenberger, Tobias Bocklet, Korbinian Riedhammer

分类: cs.CL, eess.AS

发布日期: 2026-01-05

备注: Published in Proceedings of Interspeech 2025. Please cite the proceedings version (DOI: 10.21437/Interspeech.2025-2792)

期刊: Proceedings of Interspeech 2025, pp. 276-280

DOI: 10.21437/Interspeech.2025-2792


💡 一句话要点

提出基于LoRA微调的多层次转录分割方法,用于生成目录。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 转录分割 主题分割 LoRA微调 多层次目录 大型语言模型

📋 核心要点

  1. 现有转录文本主题分割方法难以有效捕获多层次的主题结构,限制了下游应用。
  2. 利用LoRA微调大型语言模型,并结合语音停顿特征,实现转录文本的多层次主题分割。
  3. 实验结果表明,该方法在多种语言的转录文本上优于现有基线,并提出了新的评估指标。

📝 摘要(中文)

本文提出了一种新的转录文本分层主题分割方法,旨在生成多层次目录,从而捕获主题和子主题的边界。该方法将语音转录分割成多个主题部分,这有利于下游处理,并为依赖书面文本的可访问性用户提供便利。论文比较了大型语言模型的零样本提示和LoRA微调,并探索了高级语音停顿特征的整合。在英语会议记录和多语种讲座记录(葡萄牙语、德语)上的评估表明,该方法比已建立的主题分割基线有显著改进。此外,本文还调整了一种常用的多层次分割评估指标,将所有层次结构级别纳入到一个指标中。

🔬 方法详解

问题定义:论文旨在解决语音转录文本的多层次主题分割问题,即如何自动将转录文本划分成具有层级关系的主题和子主题。现有方法通常只能进行单层分割,无法捕捉到文本中更细粒度的语义结构,导致生成的目录信息不够全面和准确。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解能力,通过LoRA(Low-Rank Adaptation)微调,使其能够识别转录文本中的主题边界,并构建多层次的主题结构。同时,结合语音停顿等声学特征,辅助LLM进行主题分割。

技术框架:整体框架包括以下几个主要阶段:1) 数据预处理:对语音转录文本进行清洗和格式化;2) 特征提取:提取文本特征(例如词嵌入)和语音停顿特征;3) 模型微调:使用LoRA方法在预训练的LLM上进行微调,使其适应主题分割任务;4) 主题分割:利用微调后的LLM预测文本中的主题边界;5) 层次结构构建:根据主题边界构建多层次的主题结构。

关键创新:论文的关键创新在于:1) 提出了一种基于LoRA微调的LLM用于多层次转录文本分割的方法;2) 结合了语音停顿特征,提升了分割的准确性;3) 提出了一种新的多层次分割评估指标,能够综合评估不同层次的分割效果。

关键设计:在模型微调阶段,使用交叉熵损失函数来优化LoRA参数,目标是最小化预测的主题边界与真实边界之间的差异。语音停顿特征通过拼接的方式与文本特征融合,输入到LLM中。LoRA的具体参数设置(例如秩的大小)需要根据实验进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,基于LoRA微调的LLM方法在英语会议记录和多语种讲座记录(葡萄牙语、德语)上的主题分割性能显著优于现有基线方法。具体而言,该方法在多层次分割评估指标上取得了明显的提升,证明了其在捕获多层次主题结构方面的优势。此外,结合语音停顿特征进一步提升了分割的准确性。

🎯 应用场景

该研究成果可应用于自动生成会议记录、讲座视频等多媒体内容的多层次目录,方便用户快速浏览和检索信息。此外,该技术还可用于辅助残障人士理解语音内容,提高信息可访问性。未来,该方法有望扩展到其他类型的文本分割任务,例如新闻文章摘要、文档结构分析等。

📄 摘要(原文)

Segmenting speech transcripts into thematic sections benefits both downstream processing and users who depend on written text for accessibility. We introduce a novel approach to hierarchical topic segmentation in transcripts, generating multi-level tables of contents that capture both topic and subtopic boundaries. We compare zero-shot prompting and LoRA fine-tuning on large language models, while also exploring the integration of high-level speech pause features. Evaluations on English meeting recordings and multilingual lecture transcripts (Portuguese, German) show significant improvements over established topic segmentation baselines. Additionally, we adapt a common evaluation measure for multi-level segmentation, taking into account all hierarchical levels within one metric.