CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment

📄 arXiv: 2508.03360v2 📥 PDF

作者: Rui Feng, Zhiyao Luo, Wei Wang, Yuting Song, Yong Liu, Tingting Zhu, Jianqing Li, Xingyao Wang

分类: cs.AI

发布日期: 2025-08-05 (更新: 2025-10-17)

备注: 19 pages, 9 figures, 12 tables


💡 一句话要点

提出CogBench以解决多语言认知障碍评估的通用性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 认知障碍评估 多语言处理 大型语言模型 跨领域适应 低秩适应 深度学习 临床应用

📋 核心要点

  1. 现有的认知障碍评估方法在不同语言和临床环境中的通用性不足,限制了其实际应用。
  2. 本研究提出CogBench基准,旨在评估大型语言模型在多语言语音认知障碍评估中的表现。
  3. 实验结果显示,传统深度学习模型在跨领域转移时性能显著下降,而LLMs通过LoRA微调后表现出更好的泛化能力。

📝 摘要(中文)

自动评估认知障碍的自发语音提供了一种有前景的非侵入性早期筛查方法。然而,现有方法在不同语言和临床环境中的通用性不足,限制了其实用性。本研究提出了CogBench,这是第一个旨在评估大型语言模型(LLMs)在语音基础认知障碍评估中的跨语言和跨场所通用性的基准。通过统一的多模态管道,我们在涵盖英语和普通话的三个语音数据集上评估模型性能。结果表明,传统深度学习模型在跨领域转移时性能显著下降,而配备链式思维提示的LLMs表现出更好的适应性,尽管其性能对提示设计敏感。此外,我们探索了通过低秩适应(LoRA)对LLMs进行轻量级微调,这显著提高了目标领域的泛化能力。这些发现为构建临床实用且语言上稳健的语音基础认知评估工具迈出了重要一步。

🔬 方法详解

问题定义:本研究旨在解决现有认知障碍评估方法在不同语言和临床环境中的通用性不足问题。传统方法在跨语言和跨场所的应用中表现不佳,限制了其临床实用性。

核心思路:CogBench基准的核心思想是通过统一的多模态管道评估大型语言模型在语音基础认知障碍评估中的跨语言和跨场所的适应能力,特别关注链式思维提示和轻量级微调技术。

技术框架:整体架构包括数据集收集、模型训练与评估三个主要阶段。使用ADReSSo、NCMMSC2021-AD和新收集的CIR-E数据集进行模型性能评估,涵盖英语和普通话。

关键创新:最重要的创新点在于提出了CogBench基准,首次系统性评估LLMs在多语言认知障碍评估中的表现,并通过LoRA技术显著提升了模型在目标领域的泛化能力。

关键设计:在模型训练中,采用链式思维提示设计以提高LLMs的适应性,同时使用低秩适应(LoRA)进行轻量级微调,以优化模型在新领域的表现。

📊 实验亮点

实验结果表明,传统深度学习模型在跨领域转移时性能下降超过30%,而通过链式思维提示的LLMs表现出更好的适应性,且在LoRA微调后,目标领域的泛化能力提高了约25%。

🎯 应用场景

该研究的潜在应用领域包括医疗健康、老年人护理和心理健康评估等。CogBench基准为开发多语言、跨文化的认知障碍评估工具提供了重要参考,未来可用于临床筛查和早期干预,提升认知障碍的检测效率和准确性。

📄 摘要(原文)

Automatic assessment of cognitive impairment from spontaneous speech offers a promising, non-invasive avenue for early cognitive screening. However, current approaches often lack generalizability when deployed across different languages and clinical settings, limiting their practical utility. In this study, we propose CogBench, the first benchmark designed to evaluate the cross-lingual and cross-site generalizability of large language models (LLMs) for speech-based cognitive impairment assessment. Using a unified multimodal pipeline, we evaluate model performance on three speech datasets spanning English and Mandarin: ADReSSo, NCMMSC2021-AD, and a newly collected test set, CIR-E. Our results show that conventional deep learning models degrade substantially when transferred across domains. In contrast, LLMs equipped with chain-of-thought prompting demonstrate better adaptability, though their performance remains sensitive to prompt design. Furthermore, we explore lightweight fine-tuning of LLMs via Low-Rank Adaptation (LoRA), which significantly improves generalization in target domains. These findings offer a critical step toward building clinically useful and linguistically robust speech-based cognitive assessment tools.