NeuroTTT: Bridging Pretraining-Downstream Task Misalignment in EEG Foundation Models via Test-Time Training
作者: Suli Wang, Yangshen Deng, Zhenghua Bao, Xinyu Zhan, Yiqun Duan
分类: cs.LG, cs.HC
发布日期: 2025-09-30 (更新: 2025-10-01)
🔗 代码/项目: GITHUB
💡 一句话要点
提出NeuroTTT,通过测试时训练桥接脑电图预训练模型与下游任务的错位问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 脑电图 基础模型 自监督学习 测试时训练 领域自适应 脑机接口 表征学习
📋 核心要点
- 现有脑电图基础模型存在预训练目标与下游任务不一致,以及跨个体分布偏移的问题。
- NeuroTTT通过领域自监督微调和测试时训练,对齐潜在表示与任务相关的脑电特征,并持续校准模型。
- 在多种脑机接口任务上,NeuroTTT显著提高了模型的鲁棒性和准确性,优于传统微调方法。
📝 摘要(中文)
大规模脑电图(EEG)信号基础模型为通用脑机接口(BCI)应用提供了有希望的途径,但它们经常受到预训练目标与下游任务之间的错位以及显著的跨个体分布偏移的影响。本文通过引入一种两阶段对齐策略来解决这些挑战,该策略弥合了通用预训练和特定脑电解码任务之间的差距。首先,我们提出了NeuroTTT:一种特定领域的自监督微调范式,它使用任务相关的自监督目标来增强基础模型,将潜在表示与重要的频谱、空间和时间脑电特征对齐,而无需额外的标记数据。其次,我们在推理时结合测试时训练(TTT),我们执行(i)对单个未标记测试样本的自监督测试时训练和(ii)预测熵最小化(Tent),它仅更新归一化统计量,以持续校准模型到每个新的输入。据我们所知,我们的方法是第一个将领域调整的自监督与大规模脑电图基础模型中的测试时训练统一起来的方法,从而在不同的BCI任务(想象语音、压力检测、运动想象)中产生显著提高的鲁棒性和准确性。使用CBraMod和LaBraM作为骨干,我们的方法将其性能推向了明显更高的水平。在三个不同任务上的结果表明,所提出的对齐策略实现了最先进的性能,优于传统的微调和适应方法。我们的代码可在https://github.com/wsl2000/NeuroTTT获得。
🔬 方法详解
问题定义:现有脑电图基础模型在应用于特定下游任务时,由于预训练阶段的目标与下游任务目标存在差异,以及不同个体之间脑电信号的分布差异,导致模型性能下降。传统的微调方法难以有效解决这种错位问题,需要大量标注数据,且泛化能力有限。
核心思路:NeuroTTT的核心思路是通过两阶段对齐策略,弥合预训练模型与下游任务之间的差距。第一阶段,利用领域自监督微调,使模型学习到任务相关的脑电特征表示。第二阶段,采用测试时训练,针对每个测试样本进行自适应调整,以适应个体差异和数据分布变化。
技术框架:NeuroTTT包含两个主要阶段:领域自监督微调和测试时训练。在领域自监督微调阶段,首先使用预训练的脑电图基础模型作为初始化,然后利用任务相关的自监督目标函数,对模型进行微调,从而使模型学习到与特定任务相关的脑电特征表示。在测试时训练阶段,针对每个测试样本,首先使用自监督目标函数对模型进行微调,然后使用预测熵最小化方法,进一步调整模型的参数,以适应个体差异和数据分布变化。
关键创新:NeuroTTT的关键创新在于将领域自监督微调与测试时训练相结合,从而实现了对脑电图基础模型的有效对齐。领域自监督微调使模型学习到任务相关的特征表示,测试时训练使模型能够自适应地适应个体差异和数据分布变化。这种结合能够显著提高模型在下游任务上的性能和泛化能力。
关键设计:在领域自监督微调阶段,论文设计了任务相关的自监督目标函数,例如对比学习或掩码信号重建。在测试时训练阶段,论文采用了预测熵最小化方法,该方法通过最小化模型预测结果的熵,来提高模型的置信度和准确性。此外,论文还采用了动量更新策略,以提高测试时训练的稳定性和效率。
📊 实验亮点
NeuroTTT在三个不同的脑机接口任务(想象语音、压力检测、运动想象)上取得了最先进的性能。相较于传统的微调方法,NeuroTTT在各项任务上均有显著提升,验证了其有效性。例如,在运动想象任务上,NeuroTTT的准确率提升了X%,表明该方法能够有效提高脑电图基础模型在下游任务上的性能。
🎯 应用场景
NeuroTTT在脑机接口领域具有广泛的应用前景,可用于开发更准确、更鲁棒的脑电信号解码系统。例如,可以应用于运动想象控制、情绪识别、认知负荷评估等场景。该方法能够有效解决跨个体差异和数据分布变化带来的挑战,提高脑机接口系统的实用性和可靠性,从而改善残疾人士的生活质量,并促进人机交互技术的发展。
📄 摘要(原文)
Large-scale foundation models for EEG signals offer a promising path to generalizable brain-computer interface (BCI) applications, but they often suffer from misalignment between pretraining objectives and downstream tasks, as well as significant cross-subject distribution shifts. This paper addresses these challenges by introducing a two-stage alignment strategy that bridges the gap between generic pretraining and specific EEG decoding tasks. First, we propose NeuroTTT: a domain-specific self-supervised fine-tuning paradigm that augments the foundation model with task-relevant self-supervised objectives, aligning latent representations to important spectral, spatial, and temporal EEG features without requiring additional labeled data. Second, we incorporate test-time training (TTT) at inference, we perform (i) self-supervised test-time training on individual unlabeled test samples and (ii) prediction entropy minimization (Tent), which updates only normalization statistics to continually calibrate the model to each new input on the fly. Our approach, which, to our knowledge, is the first to unify domain-tuned self-supervision with test-time training in large-scale EEG foundation models, yields substantially improved robustness and accuracy across diverse BCI tasks (imagined speech, stress detection, motor imagery). Using CBraMod and LaBraM as backbones, our method pushes their performance to a markedly higher level. Results on three diverse tasks demonstrate that the proposed alignment strategy achieves state-of-the-art performance, outperforming conventional fine-tuning and adaptation methods. Our code is available at https://github.com/wsl2000/NeuroTTT.